墨奇音形·万象双拼辅助码·白霜拼音

每个人都可以训练自己的语言模型

GitHub - gaboolic/rime-build-grammar: 生成rime的gram文件GitHub

感谢rime输入法交流群雨辰、魔然作者ksqsf的研究。

把制作语言模型的步骤写下来，做个备忘。

语言模型简介：https://fancyerii.github.io/dev287x/lm/

简要步骤：

1 收集语料

2 分词，变成txt格式，词和词之间按空格分开脚本可以参考https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/yuliao_fenci_to_txt.py

3 生成.arpa文件可以使用开源库 https://github.com/kpu/kenlm

4 把arpa转成librime-octagram的tool用的格式雨辰提供https://github.com/gaboolic/rime-build-grammar/blob/main/arpa.py

5 执行librime-octagram的build_grammar

Previous制作白霜词库的过程 Next制作墨奇音形任意双拼辅助码

Last updated 11 months ago