[发明专利]新词提取方法和装置有效
申请号: | 201510729084.7 | 申请日: | 2015-10-30 |
公开(公告)号: | CN105260362B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 赵旭海;孟超;王海洲;张寅 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/953 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开提出一种新词提取方法,所述方法包括:计算多个候选词元的凝聚度;所述凝聚度表征所述候选词元作为固定词或固定词组的概率;计算所述多个候选词元的自由度;所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元可搭配的固定词或者固定词组越多;对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算得到加权和;基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。本公开可以实现从候选词元中更加智能的提取新的候选词或者候选词组,并且可以显著提升候选词或者候选词组提取的精确度。 | ||
搜索关键词: | 新词 提取 方法 装置 | ||
【主权项】:
1.一种新词提取方法,其特征在于,所述方法包括:计算多个候选词元的凝聚度;所述凝聚度表征所述候选词元作为固定词或固定词组的概率;计算所述多个候选词元的自由度;所述自由度表征所述候选词元与固定词或者固定词组搭配的灵活度;所述自由度取值越高,表示所述候选词元可搭配的固定词或者固定词组越多;对计算出的所述多个候选词元中每一个候选词元的凝聚度和自由度分别进行加权计算,并将所述候选词元在所有语料中的出现概率作为修正参数对计算结果进行修正得到加权和;其中,当所述语料的总长度小于预设的阈值时,基于预设的幅度提高所述修正参数的权重比例;以及,当所述语料总长度大于预设阈值时,基于预设幅度降低所述修正参数的权重比例;基于计算得到的所述加权和从所述多个候选词元中提取候选词或候选词组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510729084.7/,转载请声明来源钻瓜专利网。