Skip to content

Latest commit

 

History

History

wordEmbeddingsLayers

Word Embeddings Layers

Варианты получения векторных представлений слов/предложений (word/sentence embeddings).
На вход подается tensor из строк и возвращает тензор с числами, которые уже можно дальше "скормить" внутрь нейронной сети.

wiki_lm

Collection of wiki40b-lm language models trained on Wiki40B dataset in different languages.
Для текущий задачи был взят именно русскоязычный вариант.

Модель берется с tensorflow hub.

Описана в статье:

Mandy Guo, Zihang Dao, Denny Vrandecic, Rami Al-Rfou. Wiki-40B: Multilingual Language Model Dataset. To appear, LREC, May 2020.

Navec

Navec is a library of pretrained word embeddings for Russian language. It shows competitive or better results than RusVectores, loads ~10 times faster (~1 sec), takes ~10 times less space (~50 MB).

Модель внедряется через библиотеку navec с подгрузкой весов.

Описана в статье.

Universal Sentence Encoder (multilingual)

16 languages (Arabic, Chinese-simplified, Chinese-traditional, English, French, German, Italian, Japanese, Korean, Dutch, Polish, Portuguese, Spanish, Thai, Turkish, Russian) text encoder.

Модель берется с tensorflow hub.

Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hernandez Abrego , Steve Yuan, Chris Tar, Yun-hsuan Sung, Ray Kurzweil. Multilingual Universal Sentence Encoder for Semantic Retrieval. July 2019

FastText

Русскоязычный вариант модели берется с официального сайта модели FastText.