[发明专利]一种基于模式拓展的通用特殊词识别方法及系统有效

专利信息
申请号: 201911244936.8 申请日: 2019-12-06
公开(公告)号: CN111159990B 公开(公告)日: 2022-09-30
发明(设计)人: 段东圣;任博雅;孙旷怡;井雅琪;时磊;佟玲玲;李扬曦;宋永浩;卢杰 申请(专利权)人: 国家计算机网络与信息安全管理中心;中国科学院计算技术研究所
主分类号: G06F40/186 分类号: G06F40/186;G06F40/126;G06F40/284;G06F16/33;G06F16/31
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 祁建国
地址: 100031*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模式 拓展 通用 特殊 识别 方法 系统
【说明书】:

发明提出一种基于模式拓展的通用特殊词识别方法及系统,提出了一种基于基础词的音形编码,常用汉字音节,常用汉字结构以及特殊字符映射节点来构建前缀树,通过比较字符编码相似度进行模糊匹配,完成新词提取的方法及系统。本发明可以应用于大量文本中特定词的发现提取,某些任务的数据集的提取生成,给定文本数据集的预处理等场景中,比如短信、微博等数据集的筛选以及纠正等文本预处理过程。本发明为下一步的文本分类任务提供了数据来源和基本标注,也对文本数据中新词的发现和纠正提供了帮助。

技术领域

本发明涉及特殊新词提取领域,特别是一种利用汉字音形编码、汉字音节以及汉字结构构建前缀树进行模糊匹配,发现并提取特殊新词的技术领域。

背景技术

随着网络文化的快速发展以及信息知识的大爆炸,用户创造了大量拥有新的含义,新的表现形式的词汇,这些新词通常具有如下变化特点:

1)音似替换。用读音相似的字,替换原词中的一个或多个字,形成新词。能够通过新词读音,表达原词的意思。

2)形似替换。用结构相似的字,替换原词中的一个或多个字,形成新词。能够通过新词的部分结构,表达原词的意思。

3)拼音替换。用原词中的一个或多个字的拼音对其进行替换,形成新词。能够通过拼音,表达原词的意思。

4)缩写替换。用原词中的一个或多个汉字的拼音缩写对其进行替换,形成新词。能够通过上下文及缩写,表达原词的意思。

5)特殊字符替换。用特殊字符,替换原词中的一个或多个字,形成新词。能够通过前后的字符,表达原词的意思。

6)汉字拆分替换。用原词中的一个或多个汉字的拆分结构对其进行替换,形成新词。能够通过整体观察,表达原词的意思。

7)数字替换。用音似数字,替换原词中的一个或多个字,形成新词。能够通过整体读音,表达原词的意思。

上述所列变化形式的具体例子如图2所示。此外,文本中可能还存在除了以上定义的其他新词。

目前常用的特殊新词提取效果并不理想,现阶段的方法有如下几类:

1.基于正则表达式匹配的词提取方法

正则表达式是一种用于匹配具体模式的方法,需要自定义正则表达式,然后去每个文本中进行表达式匹配,匹配到符合该表达式的字符串就得到一个结果。这种方式需要定义复杂的匹配模式,容易考虑不周,造成大量误匹配。而且对于没有结构上具体模式的新词,就无法进行匹配,比如音似形似的新词,提取结果不能保证准确性,正则表达式多样且冗长,对于快速更新的查找对象,这种方式无法很快地进行拓展,需要专业开发人员提取新的正则表达式,对用户不友好,存在很明显的速度慢的问题。

2.基于KMP的单模式匹配的词提取方法

一般的单模式匹配算法枚举每一个文本串元素,然后开始向后比较,比较失败后从头开始重新比对,复杂度高。基于KMP的单模式匹配算法,每次匹配失败后,不会从头开始匹配,而是根据已知数据,从某个特定位置开始匹配,节约时间。虽然有助于降低复杂度,但是单模式算法用于查找一个元素,且不便于用户方便快捷的拓展新的提取对象,对于大量快速产生的文本数据,效率不高。

3.基于AC的多模式匹配的词提取方法

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所,未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911244936.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top