[发明专利]一种新词自动提取方法有效
申请号: | 201410188050.7 | 申请日: | 2014-05-06 |
公开(公告)号: | CN103955450B | 公开(公告)日: | 2016-09-21 |
发明(设计)人: | 廖建新;赵海秀;李亚松;康潮明;赵贝尔;崔晓茹 | 申请(专利权)人: | 杭州东信北邮信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100191 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种新词自动提取方法,包括:对文本句子进行切词处理,并将其中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中;计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;为频繁词组中的每个候选词构建一个子词组,并将候选词和频繁词组中的所有其他候选词相比较,如果候选词中包含有其他候选词时,则将其他候选词保存在该候选词的子词组中,然后根据候选词、以及子词组中每个子词在知识库中出现的频数,计算候选词的置信度,当候选词的置信度大于置信度阈值时,则候选词是提取的新词。本发明属于计算机自然语言处理领域,能从海量文本中准确且快速的提取新词。 | ||
搜索关键词: | 一种 新词 自动 提取 方法 | ||
【主权项】:
一种新词自动提取方法,其特征在于,包括有:步骤一、对语料库包含的所有文本句子进行切词处理,并将每个文本句子中字数长度不大于S+1的候选词提取出来,然后将提取出的所有互不相同的候选词保存在候选词库中,其中,S是预先设定的新词的字数长度上限;步骤二、根据候选词在知识库中出现的频数与相同字数长度的所有候选词在知识库中出现的频数的比值,计算候选词库中每个候选词的支持度,并将所有支持度大于支持度阈值的候选词构成一个频繁词组;步骤三、为频繁词组中的每个候选词C构建一个子词组Z(C),并将候选词C和频繁词组中的所有其他候选词相比较,如果候选词C中包含有其他候选词时,则将其他候选词保存在候选词C的子词组Z(C)中,然后根据候选词C、以及子词组Z(C)中每个子词在知识库中出现的频数,计算频繁词组中的每个候选词C的置信度,当候选词C的置信度大于置信度阈值时,则候选词C是提取的新词,步骤三进一步包括有:步骤31、从频繁词组中挑选出一个未计算置信度的候选词C;步骤32、为候选词C构建一个子词组Z(C),根据候选词C的字数长度n(C),判断频繁词组中的其他候选词的字数长度是否是n(C)‑1、且被包含在所述候选词C中,如果是,则说明其他候选词是候选词C的一个子词,将所有字数长度是n(C)‑1、且包含在候选词C中的其他候选词保存在Z(C)中;如果否,则说明其他候选词不是候选词C的子词;步骤33、计算候选词C的置信度:其中,p(C)是候选词C在知识库中出现的频数,F是Z(C)中的子词个数,z(C)1、z(C)2、…z(C)F分别是候选词C的子词组Z(C)中包含的所有子词,p(z(C)1)、p(z(C)2)、…p(z(C)F)分别是z(C)1、z(C)2、…z(C)F在知识库中出现的频数,分别是候选词C与其子词的置信度,从候选词C与其子词的置信度中挑选出最小值作为候选词C的置信度conf(C);步骤34、判断候选词C的置信度是否大于置信度阈值,如果是,则说明候选词C是提取的新词,当频繁词组中仍然存在有未计算置信度的候选词时,转向步骤31;如果否,则说明候选词C不是提取的新词,将候选词C从频繁词组中删除,然后当频繁词组中仍然存在有未计算置信度的候选词时,转向步骤31。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州东信北邮信息技术有限公司,未经杭州东信北邮信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410188050.7/,转载请声明来源钻瓜专利网。