[发明专利]一种新词的识别方法及装置有效

申请号：	201710210572.6	申请日：	2017-03-31
公开（公告）号：	CN107180025B	公开（公告）日：	2020-05-29
发明（设计）人：	胡海青;苗艳军	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	马敬;项京
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新词识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新词的识别方法，其特征在于，所述方法包括：

获取待处理语料库中当前时间点之前的第一预设时间段内的语料，和所述待处理语料库中除所述第一预设时间段内的语料之外的剩余语料；

根据N-gram语言模型获取所述第一预设时间段内的语料的候选新词，所述N-gram语言模型表征组成所述候选新词的字的个数；

计算所述候选新词在所述第一预设时间段内的语料中的成词特征，得到所述候选新词的第一成词程度；

计算所述候选新词在所述剩余语料中的成词特征，得到所述候选新词的第二成词程度；

根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度；

根据所述第一成词程度和所述新颖程度，计算所述候选新词的衡量度，并对所述衡量度进行排序，识别所述候选新词中的新词；

所述成词特征包括：互信息，信息熵，孤立度中的一种或多种，

所述计算所述候选新词在所述第一预设时间段内的语料中的成词特征，得到所述候选新词的第一成词程度，包括：

根据所述第一预设时间段内的互信息、信息熵和孤立度，得到所述候选新词的第一成词程度；

所述计算所述候选新词在所述剩余语料中的成词特征，得到所述候选新词的第二成词程度，包括：

根据所述剩余语料中的互信息、信息熵和孤立度，得到所述候选新词的第二成词程度；

所述根据所述第一预设时间段内的互信息、信息熵和孤立度，得到所述候选新词的第一成词程度，包括：

根据公式：

D₁＝I₁*H₁*logC₁

得到所述候选新词的第一成词程度，其中，D₁表示所述候选新词的第一成词程度，I₁表示所述候选新词的在所述第一预设时间段内的语料中的互信息，且I₁为除0以外的自然数，H₁表示所述候选新词在所述第一预设时间段内的语料中的信息熵，且H₁为除0以外的自然数，C₁表示所述候选新词在所述第一预设时间段内的语料中的孤立度，且C₁为除0以外的自然数；

相应的，所述根据所述剩余语料中的互信息、信息熵和孤立度，得到所述候选新词的第二成词程度，包括：

根据公式：

D₂＝I₂*H₂*logC₂

得到所述候选新词的第二成词程度，其中，D₂表示所述候选新词的第二成词程度，I₂表示所述候选新词在所述剩余语料中的互信息，且I₂为除0以外的自然数，H₂表示所述候选新词在所述剩余语料中的信息熵，且H₂为除0以外的自然数，C₂表示所述候选新词在所述剩余语料中的孤立度，且C₂为除0以外的自然数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一成词程度和所述第二成词程度，计算所述候选新词的新颖程度，包括：

计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度。

3.根据权利要求2所述的方法，其特征在于，所述计算所述第一成词程度和所述第二成词程度的比值，得到所述候选新词的新颖程度，包括：

根据公式：

得到所述候选新词的新颖程度，其中，N表示所述候选新词的新颖程度，D₁表示所述候选新词在所述第一预设时间段内的语料中的第一成词程度，D₂表示所述候选新词在所述剩余语料中的第二成词程度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司，未经北京奇艺世纪科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】