[发明专利]一种基于混合神经网络的网络文本实体关系抽取算法在审

专利信息
申请号: 202110903583.9 申请日: 2021-08-06
公开(公告)号: CN113505598A 公开(公告)日: 2021-10-15
发明(设计)人: 廖一星;王亮;朱勇;刘作国;綦云华;李子灿;姬科盛;柏富强;徐亮 申请(专利权)人: 贵州江南航天信息网络通信有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06N3/04;G06N3/08;G06K9/62
代理公司: 重庆强大凯创专利代理事务所(普通合伙) 50217 代理人: 刘永来
地址: 550000 贵州省*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 混合 神经网络 网络 文本 实体 关系 抽取 算法
【说明书】:

发明公开了一种基于混合神经网络的网络文本实体关系抽取算法,将网络文本分成两份内容一致的文本,将标注后的段落根据序号段落进行归类整理,得到段落文本归类数据,根据名词实体关系进行分类,并进行归纳标注,得到名词文本归类数据,实现对两份文本数据的实体文本信息的抽取。本发明通过对网络文本分成两部分,分别通过段落文本归类和名词实体文本归类划分编码,分别利用主题建模类别划分识别的方式和指针生成网络摘取识别的方式实现对段落文本内的数据实体关系的提取,通过TF‑IDF信息处理和重复二分聚类算法处理实现对名词实体的关系抽取,再对两种方式得到的数据进行整合,能高效精准的提取到实体关键词之间的关系属性。

技术领域

本发明涉及网络文本关系算法技术领域,尤其涉及一种基于混合神经网络的网络文本实体关系抽取算法。

背景技术

随着互联网时代的到来,在数据与算力的双重加持下,深度学习引发的人工智能浪潮席卷全球,为了让计算机做到对语言的精准理解,需要赋予其大量的先验知识,这些知识主要以结构化知识进行表示。可是与现实世界快速增长的知识量相比,结构化知识的覆盖度仍未赶上。为解决这个问题,研究人员使用实体关系抽取算法自动抽取文本中蕴含的知识,但在非英文环境下,由于数据量和文本表示的问题,算法的抽取结果与英文算法的抽取结果间存在巨大差距。为了消除语言间的差异,目前方法多采用参数迁移,标注投影等启发式方法进行跨语言信息抽取,这些方法没有考虑语言间的差异,且多数需要给定严格的限制以保证效果。针对不同语言实体关系抽取模型之间的性能差距大,现有方法在语言间信息迁移效率不高的问题,实体关系抽取是信息抽取的一个重要分支,它是指通过信息抽取技术,从自然文本抽取出实体及其之间的关系,即将非结构化数据变成半结构化数据或结构化数据的技术。随着互联网的日益普及和广泛应用,互联网数据急剧膨胀,海量无标签数据中富含大量命名实体及其关系属性,如人物、机构以及他们之间的关系,如何从海量数据中高效、精准的抽取出这些实体及关系属性,成为目前实体关系抽取面临的重大挑战。

发明内容

本发明的目的是为了解决现有技术中的缺点,而提出的一种基于混合神经网络的网络文本实体关系抽取算法。

为了实现上述目的,本发明采用了如下技术方案:

一种基于混合神经网络的网络文本实体关系抽取算法,该算法包括如下步骤:

S1、将网络文本分成两份内容一致的文本,一部分将文本以段落在文本的位置关系进行分序,并进行逐一序号标注,将标注后的段落根据序号段落进行归类整理,得到段落文本归类数据;

S2、将另一部分的文本内的名词实体进行识别归纳,根据名词实体关系进行分类,并进行归纳标注,得到名词文本归类数据,实现对两份文本数据的实体文本信息的抽取;

S3、对段落文本归类数据进行解码建模,采用主题建模类别划分识别的方式和指针生成网络摘取识别两种方式实现对网络文本中的大数据的提取计算;

S4、将名词文本归类数据分别通过TF-IDF信息处理和重复二分聚类算法处理,根据名词文本归类数据内的关键词的识别与计算,得出大数据中的实体关系抽取。

优选地,所述加码与解码分别通过编码层使用Bi-LSTM来进行编码;解码层再使用LSTM进行解码,从而实现数据的转换。

优选地,所述S3建模模型中有两个双向的LSTM-RNN,一个基于wordsequence用于实体检测;一个基于TreeStructures用于关系抽取;后者叠加在前者上,前者的输出和隐含层作为后者输入的一部分。

优选地,所述S3中指针生成网络摘取识别包括主要为抽取式识别方式,抽取式识别方式是将文本中词语重要性、句子重要性进行排序,抽取出重要度高的句子,形成摘要得到实体关系数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州江南航天信息网络通信有限公司,未经贵州江南航天信息网络通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110903583.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top