Skip to content

Latest commit

 

History

History
62 lines (42 loc) · 1.97 KB

汉字分词.md

File metadata and controls

62 lines (42 loc) · 1.97 KB

常用汉字

  • 现代汉语常用字表
  • 常用汉字测试手册
  • 集中识字
  • 常用汉字部首
  • 《常用汉字易错字分类手册》 作 者 : 赵振钧主编;赵重钟等编写 出版社 : 北京:北京理工大学出版社 出版日期 : 1993.0

词汇 分类

  • 《基础口译分类词汇》 作 者 : 王琛,顾佳琦著 出版日期 : 2010.06
  • 《英语词汇的奥秘 分类记忆法》 作 者 : 蒋争 出版日期 : 2019.09
  • 《高中英语词汇主题分类学习手册》 作 者 : 韦韡编著 出版日期 : 2020.06
  • 《实境图解新托业分类词汇》 作 者 : 林约瑟芬,陈昭纯著 出版日期 : 2018.04
  • 《最新英语口语必备 流行口语分类词汇》 作 者 : 张国海主编 出版日期 : 2000.09

分词 chrome浏览器,nodejs

在chrome双击汉字自动翻译时发现能自动分词而找到。

字典 https://github.com/unicode-org/icu/blob/7814980f51bca2000a963307cb5c4d711cc05fdb/icu4c/source/data/brkitr/dictionaries/cjdict.txt

讨论 https://news.ycombinator.com/item?id=23111914

其他 https://github.com/google/budou

  function tokenizeJA(text) {
    var it = Intl.v8BreakIterator(['ja-JP'], {type:'word'})
    it.adoptText(text)
    var words = []
  
    var cur = 0, prev = 0
  
    while (cur < text.length) {
      prev = cur
      cur = it.next()
      words.push(text.substring(prev, cur))
    }
  
    return words
  
  }
  
  console.log(tokenizeJA("我们的移动设备和各种后端语言都支持相同的数据。"))

https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter

const str = "我认为空间对于学习速度和表达方式也很有用。";
const segmenterJa = new Intl.Segmenter('ja-JP', { granularity: 'word' });

const segments = segmenterJa.segment(str);
console.table(Array.from(segments));

python分词 for icu4

https://github.com/mingruimingrui/ICU-tokenizer

https://github.com/tricinel/highlight-words