[发明专利]输入法词频调整方法及装置在审
申请号: | 202110357086.3 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113177403A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 沈哲吉;贾昌鑫;朱相宇;王映新 | 申请(专利权)人: | 北京华宇信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F3/023;G06F40/289 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 胡大成 |
地址: | 100084 北京市海淀区中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 输入法 词频 调整 方法 装置 | ||
本申请公开了一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。一种输入法词频调整方法,包括以下步骤:获取语料数据;通过分词模型,对所述语料数据进行分词,生成若干分词单元;通过识音模型,对所述分词单元进行注音,生成分词单元音节;将音节相同的分词单元保存至同一音节词库;统计同一音节词库中第一分词单元的出现概率;将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;根据比较结果,调整第一分词单元的词频;根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。通过对同一音节词库中词组的词频进行动态调整,提高了输入的准确性。
技术领域
本申请涉及输入技术领域,尤其涉及一种输入法词频调整方法及装置。
背景技术
随着社会经济、文化和科技水平的不断发展和提高,人们日常使用的词汇和专业领域的词汇也在不断发展。这导致了许多新词迅速涌现、快速迭代。为了使输入法能够适应新词的出现,需要对输入法中词组词频进行及时调整。而输入法词频的有效调整,能够极大地提高输入法的准确性和及时性。
在实现现有技术的过程中,发明人发现:
现有技术中,输入法常通过词组的系数改变词频。该方法对于新词组缺乏有效的调整机制。因为该方法对于初始词频非常敏感,过低或者过高的初始词频,都不利于新词在词库中的排序。并且,随着时间的推移,原有词组的词频也不再适合当前用户输入习惯。从而影响输入的准确性。
因此,需要提供一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。
发明内容
本申请实施例提供一种输入法词频调整方法及装置,用以解决输入法词组词频调整效果差的技术问题。
具体的,一种输入法词频调整方法,包括以下步骤:
获取语料数据;
通过分词模型,对所述语料数据进行分词,生成若干分词单元;
通过识音模型,对所述分词单元进行注音,生成分词单元音节;
将音节相同的分词单元保存至同一音节词库;
统计同一音节词库中第一分词单元的出现概率;
将所述第一分词单元的出现概率与预设阈值进行比较,得到比较结果;
根据比较结果,调整第一分词单元的词频;
根据调整后所述第一分词单元的词频,以预设顺序排列第一分词单元所在音节词库的分词单元顺序,更新音节词库。
进一步的,根据比较结果,调整第一分词单元的词频,具体包括:
当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频;
当第一分词单元在同一音节词库中的出现概率小于预设阈值,衰弱所述第一分词单元的词频。
进一步的,当第一分词单元在同一音节词库中的出现概率大于、等于预设阈值,增强所述第一分词单元的词频,具体包括:
根据所述第一分词单元在同一音节词库中的出现概率,计算所述第一分词单元在第K轮调整中的调整权重系数;其表示如下:
式中,ak,i为所述第一分词单元wi在第K轮调整中的调整权重系数,P(wi|s)为第一分词单元wi在同一音节s词库中的出现概率;
根据所述第一分词单元在第K轮调整中的调整权重系数,计算所述第一分词单元在第K轮调整中的词频权重系数;其表示如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华宇信息技术有限公司,未经北京华宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110357086.3/2.html,转载请声明来源钻瓜专利网。