Name		Name	Last commit message	Last commit date
parent directory ..
fastText		fastText
multiBERT		multiBERT
navec		navec
universal_sentence_encoder		universal_sentence_encoder
wiki_lm_russian		wiki_lm_russian
README.md		README.md
__init__.py		__init__.py
custom_vectorizer_layer.py		custom_vectorizer_layer.py

README.md

Word Embeddings Layers

Варианты получения векторных представлений слов/предложений (word/sentence embeddings).
На вход подается tensor из строк и возвращает тензор с числами, которые уже можно дальше "скормить" внутрь нейронной сети.

wiki_lm

Collection of wiki40b-lm language models trained on Wiki40B dataset in different languages.
Для текущий задачи был взят именно русскоязычный вариант.

Модель берется с tensorflow hub.

Описана в статье:

Mandy Guo, Zihang Dao, Denny Vrandecic, Rami Al-Rfou. Wiki-40B: Multilingual Language Model Dataset. To appear, LREC, May 2020.

Navec

Navec is a library of pretrained word embeddings for Russian language. It shows competitive or better results than RusVectores, loads ~10 times faster (~1 sec), takes ~10 times less space (~50 MB).

Модель внедряется через библиотеку navec с подгрузкой весов.

Описана в статье.

Universal Sentence Encoder (multilingual)

16 languages (Arabic, Chinese-simplified, Chinese-traditional, English, French, German, Italian, Japanese, Korean, Dutch, Polish, Portuguese, Spanish, Thai, Turkish, Russian) text encoder.

Модель берется с tensorflow hub.

Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hernandez Abrego , Steve Yuan, Chris Tar, Yun-hsuan Sung, Ray Kurzweil. Multilingual Universal Sentence Encoder for Semantic Retrieval. July 2019

FastText

Русскоязычный вариант модели берется с официального сайта модели FastText.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

wordEmbeddingsLayers

wordEmbeddingsLayers

README.md

Word Embeddings Layers

wiki_lm

Navec

Universal Sentence Encoder (multilingual)

FastText

Files

wordEmbeddingsLayers

Directory actions

More options

Directory actions

More options

Latest commit

History

wordEmbeddingsLayers

Folders and files

parent directory

README.md

Word Embeddings Layers

wiki_lm

Navec

Universal Sentence Encoder (multilingual)

FastText