-
Notifications
You must be signed in to change notification settings - Fork 691
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
opencc 词库转换为 ocd2 格式 #1159
Comments
感谢。确实是之前没意识到的,优化方向和思路。 不过有两个问题:
如果能大幅度改善性能,可以考虑去做。不过,当前的 txt 格式更加适合编辑维护。CI 生成可行,但增加维护成本。 此外,如果确实没有做缓存策略,是否在 librime 或者客户端或者去做更好? |
确实是在 librime 中优化更好,但我暂时不太想给官方仓库提 issue 了,之前提那个明显存在的问题都能被纠结几天,什么反证法、复现代码的,搞得我头大。 至于在不改动 librime 情况下的优化,其实有两点:
这个效率问题,单次加载其实没什么,但因为没缓存,每个 session 都会加载一遍,累积起来可能就有比较严重的性能问题。 如果你收到卡顿反馈,可以具体问问是不是开了简繁转换,如果关掉简繁转换是不是能缓解。 |
我觉得不管结果和过程如何,你能在社区上,发现和提出这些问题,就是有价值和贡献的。 可以保留开放这个 issue,有相关情况时,或者其他开发者有相关需求,我们做进一步讨论处理。 |
随手测试了一下,如果开启简繁转换,因为要加载10MB的词库,每增加一个session,算法服务就会增加10MB的内存占用,硬盘IO也能看到确实在重复加载词库文件。 @mirtlecn 如果你愿意给 librime 提交,可以尽管去,当作是你发现的问题也行,我无所谓的。 |
顺便万象拼音的 @amzxyz 大佬也来看看。 在 librime 修复这个问题之前,最好还是谨慎使用 opencc 词库。 |
好的同文就可以转,原本保留是为了可编辑性以下是脚本,且万象已更新:
|
摘要
opencc 词库转换为 ocd2 格式
输入方案
所有方案
相关应用
所有
系统信息
所有
详细说明
由于 librime 每次创建 session(或者说每个调用输入法的进程)都会重新加载一遍 opencc 配置,没有缓存和复用机制。
如果采用当前的 txt 词库格式,加载效率较低,可能影响 session 初始化速度,同时也会影响查询速度,最好转换为更加高效的 ocd2 格式。
转换命令如下:
如果在 windows 系统中转换,
opencc_dict.exe
可从 librime 官方仓库的rime-deps-xxxx-Windows-msvc-x64.7z
压缩包中找到,位于压缩包内 bin 目录下。如果是 linux 系统,比如本项目使用的 github CI 环境,可以安装
opencc
包。自定义配置
No response
The text was updated successfully, but these errors were encountered: