- 现代汉语常用字表
- 常用汉字测试手册
- 集中识字
- 常用汉字部首
- 《常用汉字易错字分类手册》 作 者 : 赵振钧主编;赵重钟等编写 出版社 : 北京:北京理工大学出版社 出版日期 : 1993.0
- 《基础口译分类词汇》 作 者 : 王琛,顾佳琦著 出版日期 : 2010.06
- 《英语词汇的奥秘 分类记忆法》 作 者 : 蒋争 出版日期 : 2019.09
- 《高中英语词汇主题分类学习手册》 作 者 : 韦韡编著 出版日期 : 2020.06
- 《实境图解新托业分类词汇》 作 者 : 林约瑟芬,陈昭纯著 出版日期 : 2018.04
- 《最新英语口语必备 流行口语分类词汇》 作 者 : 张国海主编 出版日期 : 2000.09
在chrome双击汉字自动翻译时发现能自动分词而找到。
讨论 https://news.ycombinator.com/item?id=23111914
其他 https://github.com/google/budou
function tokenizeJA(text) {
var it = Intl.v8BreakIterator(['ja-JP'], {type:'word'})
it.adoptText(text)
var words = []
var cur = 0, prev = 0
while (cur < text.length) {
prev = cur
cur = it.next()
words.push(text.substring(prev, cur))
}
return words
}
console.log(tokenizeJA("我们的移动设备和各种后端语言都支持相同的数据。"))
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter
const str = "我认为空间对于学习速度和表达方式也很有用。";
const segmenterJa = new Intl.Segmenter('ja-JP', { granularity: 'word' });
const segments = segmenterJa.segment(str);
console.table(Array.from(segments));
python分词 for icu4