[发明专利]一种新词自动提取方法有效
申请号: | 201410188050.7 | 申请日: | 2014-05-06 |
公开(公告)号: | CN103955450B | 公开(公告)日: | 2016-09-21 |
发明(设计)人: | 廖建新;赵海秀;李亚松;康潮明;赵贝尔;崔晓茹 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新词 自动 提取 方法 | ||
技术领域
本发明涉及一种新词自动提取方法,属于计算机自然语言处理领域。
背景技术
随着互联网的快速发展和网民规模不断膨胀,新词大量出现在网络并迅速渗入人们的日常生活,这已经成为一种语言现象。同时,在诸如信息检索、自动分词、词典编纂以及机器翻译等众多中文信息处理领域,新词提取的效果,在很大程度上影响着这些中文信息处理领域的效果,由于中文自身的特点,它不像英文那样在词与词之间有明显的空格间隔,如何将不断涌现的新词准确提取出来已经是中文信息处理中至关重要的一步,因此,有效的提取新词,将对提高中文信息处理相关领域的效果起到重要的作用。
专利申请CN201210469892.0(专利名称:结合内部聚合度和外部离散信息熵的网络新词发现方法,申请日:2012-11-18,申请人:浙江大学)公开了一种结合内部聚合度和外部离散信息熵的网络新词发现方法,包括:对网络语料库包含的所有文本句子进行切词处理,并将切分出来的所有互不相同的字串作为候选字串;对在网络语料库中出现的频率超过固定阈值的候选字串,计算其内部聚合度和外部离散信息熵,并根据该候选字串的内部聚合度和外部离散信息熵进一步判断候选目标词串是否为网络新词。该技术方案实现较复杂,当判断一个候选字串是否为新词时需考虑两个因素:内部聚合度和外部离散信息熵。当针对于互联网上的海量文本时,该技术方案所产生的计算量较大,并不能快速、有效的发现和提取新词。
因此,如何从海量文本中准确且快速的提取新词,仍是一个值得深入研究的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种新词自动提取方法,能从海量文本中准确且快速的提取出新词。
为了达到上述目的,本发明提供了一种新词自动提取方法,包括有:
步骤一、对语料库包含的所有文本句子进行切词处理,并将每个文本句子中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中,其中,S是预先设定的新词的字数长度上限;
步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数的比值,计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;
步骤三、为频繁词组中的每个候选词C构建一个子词组Z(C),并将候选词C和频繁词组中的所有其他候选词相比较,如果候选词C中包含有其他候选词时,则将其他候选词保存在候选词C的子词组Z(C)中,然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数,计算频繁词组中的每个候选词C的置信度,当候选词C的置信度大于置信度阈值时,则候选词C是提取的新词。
与现有技术相比,本发明的有益效果是:本发明计算每个候选词的支持度,并以支持度较大的候选词来构建频繁词组,然后根据频繁词组中每个候选词所包含的子词的出现频数来计算置信度,最后根据候选词的置信度来判断是否是新词,实现方法简单可行,并且计算量小,从而能准确而快速的从海量文本中提取出新词;计算候选词的置信度时,仅选取比自身的字数长度小1的其他候选词来作为子词,有效降低了计算量;在考虑置信度的基础上,还可以进一步结合离散度,从而大大提高了新词提取的准确度;从比自身的字数长度大1的其他候选词中挑选单字来构建左邻字组和右邻字组,极大简化了计算的复杂度,由于分布越平均信息熵越大,因此,相较于信息熵,GINI指数更适合于作为提取新词的考虑因素;支持度阈值、置信度阈值、或离散度阈值还可以根据候选词C的字数长度、以及所有相同字数长度的候选词的支持度、置信度、或离散度来灵活设置,从而使得本发明在各个应用场景中更具有通用性。
附图说明
图1是本发明一种新词自动提取方法的流程图。
图2是图1步骤一的具体操作流程图。
图3是图1步骤二的具体操作流程图。
图4是图1步骤三的具体操作流程图。
图5是图1步骤三中,结合候选词的离散度继续提取新词的具体操作流程图。
图6是图5步骤A3的具体操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种新词自动提取方法,进一步包括有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410188050.7/2.html,转载请声明来源钻瓜专利网。