之前给大家分享了几个基于 Rime 的配置方案,例如:雾凇拼音 / 薄荷拼音。详情看这篇:不用担心泄漏隐私,基于 Rime 的「薄荷拼音」输入法 文章。
今天分享基于雾凇拼音优化的 Rime 词库,据介绍主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。
然后使用 745396750 字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。
请登录后发表评论
注册
停留在世界边缘,与之惜别