[发明专利]新词搜索方法及系统在审
申请号: | 201310551747.1 | 申请日: | 2013-11-07 |
公开(公告)号: | CN103593427A | 公开(公告)日: | 2014-02-19 |
发明(设计)人: | 霍帅;张敏;刘奕群;马少平;金奕江 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新词 搜索 方法 系统 | ||
技术领域
本发明涉及网络技术领域,特别涉及一种新词搜索方法及系统。
背景技术
在中文信息处理过程中,由于中文不像英文等西方语言,词与词之间有固定的分隔符,因此,中文自动分词往往作为中文信息处理任务最开始的一个重要步骤。
随着互联网技术的不断发展,各行各业多随之出现了“新词”例如网上出现的“肿么办”、“神马”、“给力”等新词汇频繁在网络上出现。其中web2.0应用允许用户创造网页内容,使得出现了大量的新词。新词的出现很大程度上影响了自动分词工具的准确性。经研究者研究显示60%的分词错误是由新词导致的。因此,新词发现是中文自然语言处理领域非常重要的意义。
现有的新词搜索方法主要有两种,一种是基于规则的方法,另一种是基于统计的方法。基于规则的方法是利用构词原理,并结合语义、词性等信息构造模板,通过匹配来搜索新词。例如通过计算语料库中分词后词语之间的静态联合率,并提取具有紧密关系的词语,再利用语法规则、领域特征进行过滤,进而得到具有高置信度的领域术语。虽然该方法可以提高小规模数据的新词搜索,而无法适用于大规模数据的处理。另外该方法中对规则的维护比较困难,且该规则与领域相关,因此覆盖面窄,适应性差。基于统计的方法是通过对语料中的词项信息进行统计来搜索新词。例如采用独立词概率、词语在文档中的频率等作为SVM的训练特征,将新词搜索的问题转化为二分类问题,通过使用训练好的SVM进行分类,实现在线新词搜索。例如对文本进行分词,然后统计其中2-gram到8-gram的搭配,以统计出现频率,最终选择频率高的词作为新词。该方法需要以较大规模的语料进行统计和模型训练数据处理量较大,且准确率相对较低。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此,本发明一方面提供一种新词搜索方法。该搜索方法可以解决搜索准确性差且搜索复杂、效率低的问题。
本发明另一方面提供一种新词搜索系统。
有鉴于此,本发明一方面的实施例提供一种新词搜索方法,包括以下步骤:A:提供多个语料,并对所述多个语料分别进行分词以得到多个单词;B:获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;C:根据所述单词集合中不同单词的数量得到停用词集合;D:分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;E:分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及F:如果所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词,则将所述对应的候选单词作为搜索到的新词。
根据本发明实施例的方法,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
在本发明的一个实施例中,还包括:G:如果所述上下文熵不大于所述第一预设值,则将所述对应的候选单词作为所述第一单词并执行步骤B至步骤F以便进行进一步的新词搜索。
在本发明的一个实施例中,所述根据所述单词集合中不同单词的数量得到停用词集合,进一步包括:如果所述单词集合中不同单词的数量大于第二预设值,则判定所述第一单词为停用词,并将所述停用词添加到所述停用词集合中。
在本发明的一个实施例中,还包括:根据所述新词的特征训练分类器,并根据训练后的分类器对多个语料进行搜索以找到新词。
在本发明的一个实施例中,所述特征包括词频、第一单词的词性和末尾单词的词性。
有鉴于此,本发明另一方面的实施例提供一种新词搜索系统,包括:分词模块,用于获取提供多个语料,并对所述多个语料分别进行分词以得到多个单词;获取模块,用于获取多个单词中第一单词在对应的语料中与所述第一单词相邻的单词集合;获得模块,用于根据所述单词集合中不同单词的数量得到停用词集合;组合模块,用于分别将所述单词集合中的每个单词与所述第一单词进行组合以得到组合后的多个候选单词;判断模块,用于分别判断组合为每个候选单词中的两个单词组合之后的上下文熵增量;以及确定模块,用于将所述上下文熵增量大于第一预设值且对应的候选单词不包含所述停用词集合中的停用词的对应候选单词作为搜索到的新词。
根据本发明实施例的系统,通过计算上下文熵以获得候选新词,并根据停用词集合对候选新词进行过滤,因此提高了新词搜索的准确性,同时简化了搜索过程提高了搜索效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310551747.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶和海洋工程结构有限元模型检查方法
- 下一篇:烧结机搅拌式湿式排烟脱硫装置