segunda-feira, 20 de novembro de 2023

Gerenciando ambientes virtuais com Conda

O Conda – que vem com o Anaconda ou Miniconda – facilita o gerenciamento de ambientes virtuais para os diferentes projetos em Python.

Uma vez disponível (para conferir se está ok: conda --version), podemos construir, ativar, alternar ou deletar os ambientes com os seguintes comandos:

1. Criar novo ambiente virtual:

conda create --name meu_ambiente python=3.8

conda create --name meu_ambiente

2. Ativar o ambiente virtual:

conda activate meu_ambiente

3. Instalar pacotes:

conda install numpy

pip install numpy

4. Listar ambientes:

conda env list

5. Desativar ambiente:

conda deactivate

6. Remover um ambiente:

conda env remove --name meu_ambiente

Outras dicas:

7. Criação de um arquivo yml com as dependências do ambiente:

conda env export > environment.yml (recomendo excluir a linha iniciada por “prefix”, que se refere ao caminho local do seu sistema de arquivos)

pip freeze > requirements.txt (padrão do pip)

Obs. : para recriar ambiente a partir de environment.yml:

conda env create -f environment.yml

8. Mantenha o Conda atualizado:

conda update conda

quinta-feira, 9 de novembro de 2023

Em breve, nós promotores de justiça compartilharemos nossos próprios GPTs

Quando ingressei no Ministério Público, era comum recebermos dos Centros de Apoio (CAOs) alguns CDs (de 650 MB) com modelos de peças e jurisprudência.

Com a expansão da Internet e a implantação do portal institucional, a forma de compartilhar conhecimento no âmbito do MPSP mudou completamente. Nossa capacidade atual de fazer o reuso de teses e reaproveitar as peças elaboradas pelos colegas está diretamente relacionada à organização do site e à eficácia do mecanismo buscador.

Há um “game changing” acontecendo nessa área.

No evento “DevDay” do último dia 6, a primeira conferência direcionada a desenvolvedores promovida pela OpenAI, foram anunciadas inovações ao ChatGPT que permitirão, mesmo aos não desenvolvedores, criar versões customizadas do bot, denominadas GPTs (Generative Pre-trained Transformers), para tarefas específicas.

O ChatGPT poderá, agora, se conectar a bases de dados, aprender com dados pessoais e acessar a internet. Não será preciso escrever código para que criemos soluções próprias destinadas a minutar denúncias, alegações finais e outras manifestações... e com o nosso estilo. Esses bots poderão ser publicados numa plataforma – a “GPT Store” – e compartilhados.

É urgente, portanto, que conheçamos a política de privacidade dessas soluções e que a alta gestão do MPSP se atente ao tema.

Pensando no MPSP como um todo, precisaremos, também, ter em nossos quadros engenheiros de dados (para coletar, preparar e organizar as informações corporativas para treinamento de IAs) e engenheiros de softwares (para implementar as soluções em produção).

Para saber mais: https://openai.com/blog/introducing-gpts

segunda-feira, 18 de setembro de 2023

Do Medium: Por que promotores de justiça deveriam conhecer o Python?

LEIA AQUI!!!

quarta-feira, 26 de julho de 2023

Operações com datas e horas usando Python

Com Python, fazemos operações com datas e horas usando as bibliotecas datetime e relativedelta.

A biblioteca datetime possui as seguintes classes principais: date, time, datetime e timedelta.

A classe date representa uma data, a classe time representa um horário e a classe datetime representa uma combinação de data e horário. A classe timedelta é usada para realizar operações matemáticas com datas e tempos. Representa, portanto, um intervalo de tempo (com dias, horas, minutos e segundos).

Uma estratégia bastante usada nos programas é converter, previamente, as strings representativas de datas em objetos datetime para em seguida realizar as operações desejadas. Vamos fazer isso, calculando há quantos dias estou vivo.

Primeiro obtemos a data de hoje:

>>> from datetime import datetime, timedelta

>>> hoje = datetime.now()

>>> print(hoje)

2023-07-26 07:01:20.328655

Depois, convertemos a string em objeto datetime:

>>> nascimento = '24/03/1966'

>>> data_nasc = datetime.strptime(nascimento, "%d/%m/%Y")

>>> print(type(data_nasc))

Agora, é só calcular…

>>> dias_vividos = hoje - data_nasc

>>> print(dias_vividos)

20943 days, 7:01:20.328655

>>> print(dias_vividos.days)

20943

A classe relativedelta é mais poderosa que a timedelta, pois permite lidar com unidades de tempo maiores, como meses e anos, além dos componentes habituais de tempo, como dias, horas e minutos. Deve ser importada de from dateutil.relativedelta.

Com ela podemos, por exemplo, adicionar ou subtrair uma semana, um mês ou um ano de uma determinada data, considerando as diferenças de dias contidos nos meses e com anos bissextos.

Usando a classe relativedelta, poderíamos obter o seguinte resultado para o tempo vivido.

>>> from dateutil.relativedelta import relativedelta

>>> relativedelta(data_nasc, hoje)

relativedelta(years=-57, months=-4, days=-2, hours=-7, minutes=-1, seconds=-21, microseconds=+671345)

Poderíamos calcular o termo final de um prazo penal (contando o dia do início e excluindo o dia do fim) de 1 ano e 6 meses a partir de hoje da seguinte forma:

>>> termo_final = hoje + relativedelta(years=1, months=6) + relativedelta(days= -1)

>>> print(termo_final)

2025-01-25 07:01:20.328655

Ou, com uma saída mais amigável:

>>> print(termo_final.strftime("%d/%m/%Y"))

25/01/2025

Mais informações »

domingo, 9 de julho de 2023

Roteiro para a criação de contêiner Docker para uma aplicação com Python

Quero rodar uma aplicação escrita em Python com suas dependências em um contêiner Docker, construído do zero.

Para isso, preciso:

1 - Definir um diretório de trabalho na máquina local.

2 - Construir a imagem Docker, a partir das instruções do arquivo "Dockerfile" (sem extensão) e das dependências listadas no arquivo "requirements.txt".

3 - Construir a imagem. Nesta fase, são instaladas as dependências encontradas em "requirements.txt".

4 - Executar o contêiner, mapeando a pasta local com a pasta do contêiner onde roda a aplicação.

Só isso!

Mais informações »

domingo, 11 de junho de 2023

Machine Learning: escolha dos hiperparâmetros e ensamble

Introdução

Nesta semana, implementamos uma solução de machine learning para o conhecido problema "Titanic - Machine Learning From Disaster", disponibilizado em forma de competição permanente no Kaggle, conhecido portal com conteúdo voltado para a Ciência de Dados.

Seguimos os seguintes passos: 1) importação das bibliotecas necessárias; 2) leitura do dataset (disponibilizado no Kaggle); 3) pré-processamento dos dados; 4) criação de "features"; 5) seleção de "features"; 6) visualização; 7) agrupamento por sobreviventes (o que permitiu observar quais "features" eram mais relevantes para o resultado); 8) criação da tabela pivô (em relação à "feature" "Pclass"); 9) padronização das variáveis; 10 ) utilização dos modelos (Logistic Regression, Naive Bayes para Classificação, KNN para Classificação, SVM para Classificação, Decision Tree e Random Forest) e avaliação de seus respectivos desempenhos, obtidos por validação cruzada (método sklearn.model_selection.cross_val_score).

Dois aspectos do trabalho mereceram maior atenção: a escolha dos hiperparâmetros (tuning) e o e ensamble (conjugação) dos modelos.

Escolha dos hiperparâmetros

A otimização dos hiperparâmetros (tuning) foi feita com o método gp_minize da biblioteca scikit-optimize (skop). O método implementa a otimização bayesiana, usando processos gaussianos , para encontrar os hiperparâmetros ótimos, sendo computacionalmente mais eficiente do que a classe GridSearchCV, do Sklearn, que faz a busca exaustiva.

A biblioteca pode ser instalada com:

!pip install scikit-optimize

A função que nos retorna a métrica e a lista da parâmetros ótimos é a seguinte:

def treinar_modelo_dtc (parametros_dtc):

model_dtc = DecisionTreeClassifier(criterion = parametros_dtc[0],

max_depth = parametros_dtc[1],

min_samples_split = parametros_dtc[2],

min_samples_leaf = parametros_dtc[3],

random_state = 0)

score = cross_val_score(model_dtc, X_train_sc, y_train, cv = 10)

mean_score = np.mean(score)

print(np.mean(score))

return -mean_score

parametros_dtc= [['gini', 'entropy', 'log_loss'],

(2, 6),

(2, 5),

(1, 3),

]

otimos_dtc = gp_minimize(treinar_modelo_dtc, parametros_dtc, random_state = 0, verbose = 1, n_calls = 30, n_random_starts = 10)

print(otimos_dtc.fun, otimos_dtc.x)

# -0.8181772784019975 ['entropy', 3, 3, 2]

Ensamble dos modelos

Para o ensamble dos modelos, após a obtenção dos hiperparâmetros ótimos, usamos a classe VotingClassifier.

A implementação foi feita da seguinte forma:

from sklearn.ensemble import VotingClassifier

model_voting = VotingClassifier(estimators = [('RF', model_rf),

('SVC', model_svc),

('DTC', model_dtc)],

weights=[1, 2, 1],

voting='hard' )

model_voting.fit(X_train_sc, y_train)

score = cross_val_score(model_voting, X_train_sc, y_train, cv = 10)

print(np.mean(score))

# sem weights: 0.8339200998751561

# com weights: 0.8350062421972535

Resultado

O modelo combinado obteve o score de 0.77751 no Kaggle, conferindo-nos a posição nº 4499 no ranking, às 11h54min de 9 jun. 2023.

Referências

ANIFOWOSE, Fatai. Ensemble Machine Learning Explained in Simple Terms. Disponível em: <https://jpt.spe.org/twa/ensemble-machine-learning-explained-simple-terms>. Acesso em 10 jun. 2023.

CODERSCOLUMN. Scikit-Optimize: Simple Guide to Hyperparameters Tunning / Optimization. Disponível em: <https://coderzcolumn.com/tutorials/machine-learning/scikit-optimize-guide-to-hyperparameters-optimization>. Acesso em 10 jun. 2023.

KUMAR, Satyam. Use Voting Classifier to improve the performance of your ML model [Towardsdatascience]. Disponível em: <https://towardsdatascience.com/use-voting-classifier-to-improve-the-performance-of-your-ml-model-805345f9de0e>. Acesso em: 10 jun. 2023.

SCIKIT-LEARN. Ensemble Methods. Disponível em: <https://scikit-learn.org/stable/modules/ensemble.html>. Acesso em 10 jun. 2023.

SCIKIT-OPTIMIZE. Disponível em <https://scikit-optimize.github.io/stable/modules/generated/skopt.gp_minimize.html#>. Acesso em 10 jun. 2023.

VALENTE, Domingos Sárvio Magalhães. ELT579 - Aula 8 VotingModel. Disponível em: <https://youtu.be/Fo5QLR8fyZw> . Acesso em 10 jun. 2023.

domingo, 23 de abril de 2023

ChatPDF analisa processos judiciais com resultados surpreendentes

Quem acompanha o assunto "Inteligência Artificial" concorda que os modelos de linguagem natural vêm evoluindo paulatinamente há anos e que a grande disruptura produzida pelo ChatGPT é tornar a ferramenta acessível a todos e de modo bastante amigável, na forma de chat.

A IA “caiu no colo” de usuários de computadores, comuns ou avançados, e todos estão encontrando utilidades práticas para ela. Eu, particularmente, uso o ChatGPT para estudar programação, otimizar e auditar códigos e para melhorar minha compreensão sobre temas ligados à tecnologia.

Uma das aplicações possíveis - e que há até pouco tempo parecia longe de se concretizar - é a análise de autos de processos judiciais, para a identificação das controvérsias ou teses e para localização ágil de referências e documentos.

Testei a plataforma ChatPDF para essa finalidade (há ferramentas similares na Internet). Trata-se, aparentemente (a documentação é escassa) de uma interface web que extrai o texto do PDF e o submete com "prompts" específicos à API do ChatGPT, emulando a conversa sobre o PDF apresentado.

O resultado foi bastante assertivo, tanto em autos de processo criminal, como em caso de processo de falência, como se pode conferir no vídeo abaixo.

Não é defeso pensar que, com técnicas de “transfer learning” (largamente adotadas no campo do reconhecimento de imagens) tenhamos, em breve, IAs treinadas em bases de dados especificas de processos judiciais e que, destarte, serão muito mais precisas na execução dessa tarefa.

sexta-feira, 21 de abril de 2023

Pesquisa processos no 2º Grau do TJSP por investigado ou advogado

Introdução

A Promotoria de Justiça de Piracicaba monitora a entrada de processos em 2º grau relacionados a seus investigados, realizando consultas periódicas ao eSAJ, de forma automática. Para isso, criamos um web crawler (ou "robozinho") para realizar a pesquisa não autenticada ao eSAJ.

A aplicação faz buscas por nome da parte ou número de OAB e retorna informações sobre processos criminais encontrados.

A linguagem de programação escolhida foi o Python, utilizando-se as bibliotecas Requests (requisições web), BeautifulSoup (para parsear o HTML), datetime (para a manipulação de datas e horários) e os (para a manipulação de arquivos).

Estratégias usadas no programa

O programa realiza a busca em uma URL específica e utiliza o método POST para enviar os dados necessários. Ele analisa a resposta utilizando a biblioteca BeautifulSoup e, a partir disso, retorna os resultados em um formato legível. Os arquivos de configuração armazenam as informações de investigados e números de OAB. O arquivo de resultados gravado é comparado com o atual, por meio de hash, para verificar se houve alteração nas informações anteriormente obtidas.

Como obter o programa

O código fonte do programa está publicado no GitHub, com licença MIT (cf. em <https://github.com/jespimentel/crawler_sg>). Os iniciados em Python não terão qualquer dificuldade para clonar o programa e rodar na própria máquina. As bibliotecas necessárias estão relacionadas no arquivo "requirements.txt". Para os colegas de MP, podemos fornecer o executável, mediante solicitação.

Como usar o programa

Para utilizar o programa, é necessário criar dois arquivos de texto dentro da pasta "config_pesquisa": "investigados.txt" e "oab.txt". No arquivo "investigados.txt", deve-se incluir o nome das partes que se deseja buscar informações, uma em cada linha. Já no arquivo "oab.txt", deve-se incluir o número de OAB, um em cada linha. Assentos e pontos devem ser desprezados.

Após a criação dos arquivos, basta executar o programa e esperar o resultado ser gerado na pasta "_resultados".

Limitações

Não há garantia de funcionamento, nem de resultados. Qualquer alteração no site do TJSP "quebra" a lógica do programa, que procura o resultado contido em tags específicas da página html de resultados.

Conclusões

O programa é uma ferramenta útil para a coleta automatizada das informações sobre processos judiciais, limitada a consulta ao 2º Grau do Tribunal de Justiça do Estado de São Paulo, através do portal eSAJ e para um usuário não autenticado.

Mais informações »

Palestra para o Grupo de Estudos de Marília/SP

domingo, 26 de março de 2023

Análise Espectral e Transformada de Fourier

A análise espectral baseia-se na ideia de usar “somas trigonométricas” de senos e cossenos para descrever fenômenos periódicos. Se a série é periódica, a expansão do sinal é chamada de Série de Fourier. Se é aperiódica, a expansão é denominada Transformada de Fourier (ou Integral de Fourier) [1].

A Transformada de Fourier fornece a decomposição do sinal em ondas de frequências distintas, produzindo o espectro. Por ele é possível visualizar o sinal em bandas de frequências, facilitando a análise. Constatam-se, assim, quais frequências e ruídos compõem o sinal [2].

O software Octave possui função interna para converter o domínio do tempo de um sinal para o domínio da frequência, tratando-se da Transformada rápida de Fourier (FFT), que pode ser acionada por fft() [3]. Opcionalmente, fftshift() move a frequência central da FFT para o centro do vetor, facilitando a visualização e análise do espectro [4].

O espectrograma corresponde ao gráfico de duas dimensões que relaciona o tempo e a frequência do sinal. Quando a ele se acrescenta a terceira dimensão, como a correspondente à amplitude do sinal (medida em dB), relacionando-a a cores, é possível constatar a energia do sinal ao longo do tempo e respectivas frequências, o que pode ser útil, por exemplo, para esteganografia ou análises de EEG, erupções vulcânicas, terremotos etc. a partir de seus sinais característicos [5] [6].

REFERÊNCIAS

[1] Aguirre, Antonio. Uma introdução à análise espectral de séries temporais econômicas. In: Nova Economia, vol. 5, n. 1. Belo Horizonte. 1995. Disponível em: https://revistas.face.ufmg.br/index.php/novaeconomia/article/download/2284/1224/7444. Acesso em 26 mar. 2023.

[2] Nunes, Tássia. Análise Espectral e transformada de Fourier em processamento de sinal de EEG. In: Brain Suport [portal]. Disponível em: https://www.brainlatam.com/blog/analise-espectral-e-transformada-de-fourier-em-processamento-de-sinal-de-eeg-4248. Acesso em: 26 mar. 2023.

[3] GNU Octave (version 8.1.0). Sinal Processing. Disponível em: https://docs.octave.org/v8.1.0/Signal-Processing.html. Acesso em: 26 mar. 2023.

[4] Octave Forge. Disponível em: https://octave.sourceforge.io/octave/function/fftshift.html. Acesso em: 26 mar. 2023.

[5] PNSN. What is a Spectrogram? Disponível em: https://pnsn.org/spectrograms/what-is-a-spectrogram. Acesso em: 26 mar. 2023.

[6] WikiSEC. Imagem em áudio. Disponível em: https://wiki.imesec.ime.usp.br/books/ctf-starter-pack/page/imagem-em-%C3%A1udio. Acesso em: 26 mar. 2023.

In [1]:

import numpy as np
import matplotlib.pyplot as plt

Fs = 8000 # Frequência de amostragem em Hz
L = 8000 # Número de amostras
t = np.arange(0, L/Fs, 1/Fs) # Vetor de tempo

x = 0.7*np.sin(2*np.pi*500*t) + np.sin(2*np.pi*2000*t) + 2*np.random.randn(L) # Sinal de áudio

plt.plot(t, x) # Plot do sinal
     

Out[1]:

[<matplotlib.lines.Line2D at 0x7f2110263850>]

In [2]:

print(t)
print(type(t))
print(len(t))
     

[0.00000e+00 1.25000e-04 2.50000e-04 ... 9.99625e-01 9.99750e-01
 9.99875e-01]
<class 'numpy.ndarray'>
8000

In [3]:

X = np.fft.fft(x) # Transformada de Fourier

In [4]:

import numpy as np
import matplotlib.pyplot as plt

freq = np.arange(-(L/2-1), L/2)*Fs/L # Vetor de frequência
pfreq = np.arange(0, L/2+1)*Fs/L # Frequências positivas

if len(X) != len(freq):
    X = X[:-1] # Corta o último elemento de x para que tenha o mesmo tamanho de y

plt.subplot(3,1,1)
plt.plot(freq, np.abs(X))
plt.subplot(3,1,2)
plt.plot(freq, np.abs(np.fft.fftshift(X)))
plt.subplot(3,1,3)
plt.plot(pfreq, np.abs(X[:L//2+1]))

     

Out[4]:

[<matplotlib.lines.Line2D at 0x7f2110087250>]

In [5]:

import numpy as np
import matplotlib.pyplot as plt
from scipy import signal

# Parâmetros do sinal
fs = 1000  # Frequência de amostragem
t = np.arange(0, 3, 1/fs)  # Vetor de tempo
f0 = 150  # Frequência inicial
t1 = 3  # Duração da variação de frequência
f1 = 450  # Frequência final
B = (f1-f0)/t1  # Largura de banda

# Geração do sinal
y = np.cos(2*np.pi*(f0*t+B/2*t**2))

# Cálculo do espectro do sinal
Y = np.abs(np.fft.fft(y))
F = np.linspace(0, fs/2, round(len(y)/2))
plt.plot(F, Y[:round(len(y)/2)])
plt.xlabel('Frequencia (Hz)')
plt.ylabel('Magnitude')

# Cálculo do espectrograma do sinal
f, t_spec, Sxx = signal.spectrogram(y, fs=fs, window='hamming', nperseg=512, noverlap=256, scaling='spectrum')
plt.figure()
plt.pcolormesh(t_spec, f, 10*np.log10(Sxx), cmap='inferno')
plt.ylim([0, 500])
plt.xlabel('Tempo (s)')
plt.ylabel('Frequencia (Hz)')
plt.colorbar(label='Potência (dB)')
plt.show()

     

In [6]:

len(y)

Out[6]:

In [7]:

from IPython.display import Audio

# reproduzir o sinal
fs = 44100
Audio(y, rate=fs)

Out[7]:

In [8]:

lena = '/content/drive/MyDrive/Datasets/lena.wav'
from IPython.display import Audio

from IPython.display import Audio
Audio(lena)
     

Out[8]:

In [ ]:

!pip install librosa
import librosa

y, sr = librosa.load(lena, sr=None)
     

In [10]:

import numpy as np

n_fft = 2048
hop_length = 512
stft = librosa.stft(y, n_fft=n_fft, hop_length=hop_length)
spectrogram = np.abs(stft)
     

In [11]:

import librosa
import librosa.display
import matplotlib.pyplot as plt

# Carrega o arquivo de áudio
y, sr = librosa.load(lena)

# Calcula o espectrograma
D = librosa.amplitude_to_db(librosa.stft(y), ref=np.max)

# Plota a imagem
plt.figure(figsize=(12, 6))
librosa.display.specshow(D, y_axis='linear')
plt.colorbar(format='%+2.0f dB')
plt.title('Espectrograma de Lena.wav')
plt.xlabel('Tempo (s)')
plt.ylabel('Frequência (Hz)')
plt.tight_layout()
plt.show()
     

<ipython-input-11-89a36e3a393a>:9: UserWarning: amplitude_to_db was called on complex input so phase information will be discarded. To suppress this warning, call amplitude_to_db(np.abs(S)) instead.
  D = librosa.amplitude_to_db(librosa.stft(y), ref=np.max)

In [12]:

import numpy as np
import scipy.io as sio
import matplotlib.pyplot as plt

# Carregando os dados do arquivo whalecalls.mat
data = sio.loadmat('/content/drive/MyDrive/Datasets/whalecalls.mat')
X1 = data['X1']
X2 = data['X2']
fs = int(data['fs'][0][0])

# Gerando o espectrograma para X1
plt.specgram(X1[0], Fs=fs)
plt.xlabel('Time')
plt.ylabel('Frequency')
plt.show()

# Gerando o espectrograma para X2
plt.specgram(X2[0], Fs=fs)
plt.xlabel('Time')
plt.ylabel('Frequency')
plt.show()
     

In [13]:

data

Out[13]:

{'__header__': b'MATLAB 5.0 MAT-file, Platform: PCWIN, Created on: Thu Sep 13 15:13:57 2007',
 '__version__': '1.0',
 '__globals__': [],
 'fs': array([[4000]], dtype=uint16),
 'X1': array([[-0.12512207, -0.08862305, -0.01721191, ...,  0.        ,
          0.0020752 ,  0.0177002 ],
        [-0.00354004, -0.00024414, -0.00146484, ...,  0.00109863,
         -0.00231934, -0.00146484],
        [ 0.00842285, -0.0012207 ,  0.00793457, ..., -0.02294922,
         -0.01330566,  0.01647949],
        ...,
        [ 0.00769043, -0.00183105,  0.00244141, ...,  0.00146484,
          0.00036621, -0.00048828],
        [-0.00109863, -0.00793457, -0.00158691, ...,  0.09753418,
         -0.05407715, -0.03918457],
        [-0.00183105, -0.02844238,  0.01757812, ...,  0.00537109,
         -0.01123047, -0.00512695]]),
 'X2': array([[-0.04553223, -0.03430176, -0.06079102, ...,  0.0144043 ,
          0.01330566, -0.01416016],
        [ 0.02624512,  0.00402832, -0.01416016, ...,  0.01794434,
         -0.03369141, -0.02392578],
        [-0.02441406, -0.02355957,  0.00256348, ...,  0.02392578,
         -0.00280762,  0.00476074],
        ...,
        [ 0.03479004, -0.00915527, -0.02575684, ...,  0.01782227,
         -0.01525879, -0.03393555],
        [ 0.04272461,  0.02441406, -0.03625488, ...,  0.0255127 ,
          0.04675293,  0.03222656],
        [-0.04907227, -0.0246582 ,  0.03857422, ...,  0.0369873 ,
          0.02990723,  0.02490234]])}

In [14]:

Out[14]: