每个人都可以训练自己的语言模型

感谢rime输入法交流群雨辰、魔然作者ksqsf的研究。

把制作语言模型的步骤写下来,做个备忘。

语言模型简介:https://fancyerii.github.io/dev287x/lm/

简要步骤:

1 收集语料

2 分词,变成txt格式,词和词之间按空格分开 脚本可以参考https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/yuliao_fenci_to_txt.py

3 生成.arpa文件 可以使用开源库 https://github.com/kpu/kenlm

4 把arpa转成librime-octagram的tool用的格式 雨辰提供https://github.com/gaboolic/rime-build-grammar/blob/main/arpa.py

5 执行librime-octagram的build_grammar

Last updated