[发明专利]一种基于模式拓展的通用特殊词识别方法及系统有效

申请号：	201911244936.8	申请日：	2019-12-06
公开（公告）号：	CN111159990B	公开（公告）日：	2022-09-30
发明（设计）人：	段东圣;任博雅;孙旷怡;井雅琪;时磊;佟玲玲;李扬曦;宋永浩;卢杰	申请（专利权）人：	国家计算机网络与信息安全管理中心;中国科学院计算技术研究所
主分类号：	G06F40/186	分类号：	G06F40/186;G06F40/126;G06F40/284;G06F16/33;G06F16/31
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国
地址：	100031***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模式拓展通用特殊识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种基于模式拓展的通用特殊词识别方法及系统，提出了一种基于基础词的音形编码，常用汉字音节，常用汉字结构以及特殊字符映射节点来构建前缀树，通过比较字符编码相似度进行模糊匹配，完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取，某些任务的数据集的提取生成，给定文本数据集的预处理等场景中，比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注，也对文本数据中新词的发现和纠正提供了帮助。

技术领域

本发明涉及特殊新词提取领域，特别是一种利用汉字音形编码、汉字音节以及汉字结构构建前缀树进行模糊匹配，发现并提取特殊新词的技术领域。

背景技术

随着网络文化的快速发展以及信息知识的大爆炸，用户创造了大量拥有新的含义，新的表现形式的词汇，这些新词通常具有如下变化特点：

1)音似替换。用读音相似的字，替换原词中的一个或多个字，形成新词。能够通过新词读音，表达原词的意思。

2)形似替换。用结构相似的字，替换原词中的一个或多个字，形成新词。能够通过新词的部分结构，表达原词的意思。

3)拼音替换。用原词中的一个或多个字的拼音对其进行替换，形成新词。能够通过拼音，表达原词的意思。

4)缩写替换。用原词中的一个或多个汉字的拼音缩写对其进行替换，形成新词。能够通过上下文及缩写，表达原词的意思。

5)特殊字符替换。用特殊字符，替换原词中的一个或多个字，形成新词。能够通过前后的字符，表达原词的意思。

6)汉字拆分替换。用原词中的一个或多个汉字的拆分结构对其进行替换，形成新词。能够通过整体观察，表达原词的意思。

7)数字替换。用音似数字，替换原词中的一个或多个字，形成新词。能够通过整体读音，表达原词的意思。

上述所列变化形式的具体例子如图2所示。此外，文本中可能还存在除了以上定义的其他新词。

目前常用的特殊新词提取效果并不理想，现阶段的方法有如下几类：

1.基于正则表达式匹配的词提取方法

正则表达式是一种用于匹配具体模式的方法，需要自定义正则表达式，然后去每个文本中进行表达式匹配，匹配到符合该表达式的字符串就得到一个结果。这种方式需要定义复杂的匹配模式，容易考虑不周，造成大量误匹配。而且对于没有结构上具体模式的新词，就无法进行匹配，比如音似形似的新词，提取结果不能保证准确性，正则表达式多样且冗长，对于快速更新的查找对象，这种方式无法很快地进行拓展，需要专业开发人员提取新的正则表达式，对用户不友好，存在很明显的速度慢的问题。

2.基于KMP的单模式匹配的词提取方法

一般的单模式匹配算法枚举每一个文本串元素，然后开始向后比较，比较失败后从头开始重新比对，复杂度高。基于KMP的单模式匹配算法，每次匹配失败后，不会从头开始匹配，而是根据已知数据，从某个特定位置开始匹配，节约时间。虽然有助于降低复杂度，但是单模式算法用于查找一个元素，且不便于用户方便快捷的拓展新的提取对象，对于大量快速产生的文本数据，效率不高。

3.基于AC的多模式匹配的词提取方法

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所，未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911244936.8/2.html，转载请声明来源钻瓜专利网。

上一篇：文本翻译方法、装置、机器翻译系统和存储介质
下一篇：一种数据中心交换机外置液冷散热系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模式拓展的通用特殊词识别方法及系统有效

专利文献下载