[发明专利]一种基于模式拓展的通用特殊词识别方法及系统有效
申请号: | 201911244936.8 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111159990B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 段东圣;任博雅;孙旷怡;井雅琪;时磊;佟玲玲;李扬曦;宋永浩;卢杰 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院计算技术研究所 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/126;G06F40/284;G06F16/33;G06F16/31 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100031*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 拓展 通用 特殊 识别 方法 系统 | ||
本发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。
技术领域
本发明涉及特殊新词提取领域,特别是一种利用汉字音形编码、汉字音节以及汉字结构构建前缀树进行模糊匹配,发现并提取特殊新词的技术领域。
背景技术
随着网络文化的快速发展以及信息知识的大爆炸,用户创造了大量拥有新的含义,新的表现形式的词汇,这些新词通常具有如下变化特点:
1)音似替换。用读音相似的字,替换原词中的一个或多个字,形成新词。能够通过新词读音,表达原词的意思。
2)形似替换。用结构相似的字,替换原词中的一个或多个字,形成新词。能够通过新词的部分结构,表达原词的意思。
3)拼音替换。用原词中的一个或多个字的拼音对其进行替换,形成新词。能够通过拼音,表达原词的意思。
4)缩写替换。用原词中的一个或多个汉字的拼音缩写对其进行替换,形成新词。能够通过上下文及缩写,表达原词的意思。
5)特殊字符替换。用特殊字符,替换原词中的一个或多个字,形成新词。能够通过前后的字符,表达原词的意思。
6)汉字拆分替换。用原词中的一个或多个汉字的拆分结构对其进行替换,形成新词。能够通过整体观察,表达原词的意思。
7)数字替换。用音似数字,替换原词中的一个或多个字,形成新词。能够通过整体读音,表达原词的意思。
上述所列变化形式的具体例子如图2所示。此外,文本中可能还存在除了以上定义的其他新词。
目前常用的特殊新词提取效果并不理想,现阶段的方法有如下几类:
1.基于正则表达式匹配的词提取方法
正则表达式是一种用于匹配具体模式的方法,需要自定义正则表达式,然后去每个文本中进行表达式匹配,匹配到符合该表达式的字符串就得到一个结果。这种方式需要定义复杂的匹配模式,容易考虑不周,造成大量误匹配。而且对于没有结构上具体模式的新词,就无法进行匹配,比如音似形似的新词,提取结果不能保证准确性,正则表达式多样且冗长,对于快速更新的查找对象,这种方式无法很快地进行拓展,需要专业开发人员提取新的正则表达式,对用户不友好,存在很明显的速度慢的问题。
2.基于KMP的单模式匹配的词提取方法
一般的单模式匹配算法枚举每一个文本串元素,然后开始向后比较,比较失败后从头开始重新比对,复杂度高。基于KMP的单模式匹配算法,每次匹配失败后,不会从头开始匹配,而是根据已知数据,从某个特定位置开始匹配,节约时间。虽然有助于降低复杂度,但是单模式算法用于查找一个元素,且不便于用户方便快捷的拓展新的提取对象,对于大量快速产生的文本数据,效率不高。
3.基于AC的多模式匹配的词提取方法
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所,未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911244936.8/2.html,转载请声明来源钻瓜专利网。