墨奇音形·万象双拼辅助码·白霜拼音
  • 简介
  • 墨奇音形说明
    • 双拼说明
    • 辅助码说明
      • 墨奇码拆分说明
  • 墨奇音形安装
    • 手心挂接
  • 墨奇音形高级功能
    • 不认识的字反查
    • 英语、日语输入
    • emoji输入
    • 火星文
    • 中英互译
    • 超级简拼
    • e简码
    • 模糊音、飞键
    • 使用/字词分离
    • 查看字的拆分(墨奇码独有)
    • 时间、日期输入
    • V键计算器
    • R输入大写数字
    • U直接输入unicode字符
    • 符号、快符
    • 并击
  • 墨奇音形常见问题解答
  • 鸣谢
  • 友情链接
  • 进阶·技术细节
    • 制作白霜词库的过程
    • 每个人都可以训练自己的语言模型
    • 制作墨奇音形任意双拼辅助码
Powered by GitBook
On this page
  1. 进阶·技术细节

制作白霜词库的过程

Previous进阶·技术细节Next每个人都可以训练自己的语言模型

Last updated 9 months ago

作者最初使用的是雾凇拼音里的词库,用了一段时间发现有一些问题,例如字频过高,废词、黄词有点多,输入“衍射与折射”,“打几把游戏”,“喝一杯蜜雪”等词句时不符合预期,上屏很尴尬的结果。于是重新制作。

第一步是在雾凇词库的基础上,所有字的字频/100,手工去掉诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。

第二步,使用修改后的词库,生成结巴分词使用的自定义分词词库的格式,脚本见

第三步,下载mnbvc的语料库,清洗数据,产生txt格式的纯净文字,脚本见

第四步,把第三步得到的txt文件,每个都去调用结巴分词,并统计词频,脚本见

第五步,合并多个txt文件的词频,脚本见

第六步,修改白霜词库的词频为上面分词词频合并的结果,脚本见

第七步,重新生成结巴分词自定义词库,测试新词频效果,脚本见

第八步,手工打字,评估新词频效果。手工剔除一些影响分词效果的长词,例如“时间和”,“鱼的”等等词。

以上1-8步重复多次执行,自我迭代,效果会越来越好。

第九步,添加细胞词库,也用到了一些去重、注音的脚本,都在。

https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/generate_custom_fenci_dict.py
https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/get_dict.py
https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/yuliao_fenci.py
https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/merge_fenci_freq_result.py
https://github.com/gaboolic/rime-frost/blob/master/others/program/reduce_freq_base_to_zhifreq.py
https://github.com/gaboolic/rime-frost/blob/master/others/program/mnbvc/fenci_test.py
https://github.com/gaboolic/rime-frost/blob/master/others/program