[发明专利]一种变形词证认系统及证认方法有效
申请号: | 201210537803.1 | 申请日: | 2012-12-12 |
公开(公告)号: | CN103049434A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 张作职;宋传宝;王树强 | 申请(专利权)人: | 北京海量融通软件技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;董烨飞 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变形 证认 系统 方法 | ||
技术领域
本发明涉及一种对变形词进行检测证认的系统,同时也涉及该系统实现变形词检测证认的方法,属于计算机自然语言处理技术领域。
背景技术
随着互联网的推广普及,现实生活中开始出现越来越多的网络语言。网络语言的一个显著特点在于变形词特别多,例如用“886”表示“再见”,“3Q”表示“谢谢”,“童鞋”表示“同学”等等。另一方面,有些作者为了规避机器自动检测,故意选用错字、别字、同音字等变形词替换原形词。这些变形词的出现给计算机自然语言处理带来了巨大的技术挑战,需要研发出专门的变形词检测技术加以解决。
目前,现有的变形词检测技术大多基于变形词库实现,主要在变形词检测的技术实现上有所不同,例如有的变形词检测技术是在分离变形词部分后与原形词进行匹配。在申请号为98105507.9的中国专利申请中,公开了一种不连续短语的匹配翻译装置和方法。该装置包括:一个句子获取装置,从一篇文章或文章片断的指定的位置获取一个句子;变形词辨析装置,根据变形词取得其原形;短语辨析装置,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,根据短语辨析装置的输入,将涉及有关单词的短语全部取出进行匹配;以及语法规则快速确认装置,根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。
另外,在申请号为200810224894.7的中国专利申请中,也公开了一种敏感词校对的方法及系统。该方法包括如下步骤:通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。
发明内容
本发明所要解决的技术问题在于提供一种变形词证认系统及证认方法。该技术方案将变形词的检测与证认有机结合,从而使变形词判别结论有语义依据。
为实现上述的发明目的,本发明采用下述的技术方案:
一种变形词证认系统,包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中,
所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接;
所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。
其中较优地,所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。
其中较优地,所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、英语同音词。
其中较优地,所述概念库是以原形词为节点的无向图,在节点之间以边相连,每条边表示两个节点的原形词属于相同的概念集合。
其中较优地,所述概念集合是与原形词节点相连的一级节点的集合。
一种变形词证认方法,包括如下步骤:
首先通过原形词,在变形词库查询其对应的变形词;
在得到原形词及变形词后,在待检测数据中做匹配运算,如果得到对应的变形词则继续,否则退出变形词证认;
如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景;
通过原形词在概念库中查找与所述原形词相关的概念集合,计算所述概念集合与所述语义背景间的相似性,利用相似性度量变形词是所述原形词的变形词的信度值;
通过预先设定的判别阈值与所述信度值进行比较,得出变形词是不是所述原形词的变形词的结论。
其中较优地,在查询变形词的过程中,通过指定变形词类别作为过滤条件,得到所述原形词的不同形式的变形词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海量融通软件技术有限公司,未经北京海量融通软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210537803.1/2.html,转载请声明来源钻瓜专利网。