-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathLEIAME - exemplos.txt
36 lines (25 loc) · 2.33 KB
/
LEIAME - exemplos.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
###########################################################################################
ATENÇÃO: a versão do gensim é diferente na classe do athos e nos testes do Doc2VecRapido
###########################################################################################
- github: https://github.com/luizanisio/Doc2VecRapido
- config: https://github.com/luizanisio/Doc2VecRapido#voc%C3%AA-pode-configurar-alguns-par%C3%A2metros-antes-do-treinamento-para-o-doc2vecrapido
Criar config para ajustes antes de treinar o modelo (opcional)
- python util_doc2vec_rapido.py -pasta ./meu_modelo -config
Treinando um modelo simples com Doc2Vec:
- python util_doc2vec_rapido.py -pasta ./meu_modelo -textos ./textos_grupos -epocas 100
Fine Tunning de um modelo T5BR:
- python util_treinallm_rapido.py -pasta ./meut5br -base t5br -textos ./textos_sim -epocas 5
Agrupamento
- python util_agrupamento_rapido.py -modelo meu_modelo -textos textos_grupos -texto -plotar -saida meu_modelo
- python util_agrupamento_rapido.py -modelo meu_modelo -textos textos_grupos -texto -plotar -sim 80
- python util_agrupamento_rapido.py -modelo T5BR -textos textos_grupos -texto -plotar -sim 90 -saida t5br
- python util_agrupamento_rapido.py -modelo BERT -textos textos_grupos -texto -plotar -sim 90 -saida bert
- python util_agrupamento_rapido.py -modelo athos_v2 -textos textos_grupos -texto -plotar -sim 85 -saida athos_v2
- python util_agrupamento_rapido.py -modelo athos_v2e -textos textos_grupos -texto -plotar -sim 85 -saida athos_v2e
- python util_agrupamento_rapido.py -modelo athos_v2_4k -textos textos_grupos -texto -plotar -sim 85 -saida athos_v2_4k
=----------------------------------------------------------------------------=
PS: Modelos como o Bert, Bertimbau, LongBert e T5br (sentence-transformer-ult5-pt-small)
precisam de Fine Tunning para similaridade, não darão um bom resultado sem treinamento.
O Modelo GTRT5XXL (sentence-transformers/gtr-t5-xxl) já está treinado com a similaridade, mas é bem pesado. Sugiro com uso de GPU.
O modelo BERT_4K (allenai/longformer-base-4096) tem um erro na contagem máxima de tokens, sendo necessário corrigir o arquivo sentence_bert_config.json para 4096 tokens
O modelo sentence-transformer-ult5-pt-small tem demonstrado bons resultados no finetunning e tem 1024 tokens de contexto.