[发明专利]一种关注关联词的实体关系抽取方法在审
申请号: | 201910479528.4 | 申请日: | 2019-06-04 |
公开(公告)号: | CN110196978A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 钟将;袁红阳;李青 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
地址: | 400030 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 特征向量 关联词 向量 抽取 词组特征 二元组合 文本句子 输出 句子 词语 文本 标签文本 关系分类 关系类型 句子级别 两两组合 权重向量 神经网络 文本分词 语义结构 语义特征 映射 权重 串联 标签 | ||
本发明公开了一种关注关联词的实体关系抽取方法,所述关注关联词的实体关系抽取方法,包括以下步骤:S1,输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2,将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3,将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4,将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,得到最后的关系分类结果输出。
技术领域
本发明涉及深度学习与自然语言处理领域,具体涉及一种关注关联词的实体关系抽取方法。
背景技术
实体关系抽取是信息抽取领域的热点问题,其主要任务是在实体识别的基础上,在无结构的文本中进行实体关系抽取,实现实体关系的结构化存储与利用。该技术打破了人工阅读理解文本语义及获取关系的限制,在面对大量文本信息处理时具有速度优势,可应用于众多自然语言处理应用领域。例如,通过实体关系抽取,可以辅助知识图谱或者本体知识库的构建;也可以为自动问答系统提供支持。从研究上看,该技术还可以提供理论支持,对目前语义网络标注,篇章理解,机器翻译方面都有着重要意义。
目前,基于机器学习方法的关系实体抽取技术主要分为有监督的学习方法、无监督的学习方法和半监督学习方法三种。有监督学习方法是最基本的关系抽取方法,他的思想主要是将已标记的训练数据用来训练关系抽取模型,然后就用这个模型实现数据中实体具备的关系类型进行预测。半监督的学习方法主要采用Bootstrapping进行关系抽取和充分利用现有的freebase进行的远程监督关系抽取。无监督的学习方法通过对所有实体对的语义关系进行聚类,并在此基础上实现关系的识别。中文文本语言特点复杂,大多使用关联词来进一步增强语义信息,而关联词更多倾向于使用两个词语来共同表示实体之间存在的语义关联,例如“因为”和“所以”表示因果关系;但现有的实体抽取方法并未关注关联词对实体提取的影响,难以适应于语言特点复杂的中文文本,实体抽取的准确率不高。
例如申请公布号为CN106202044A的发明专利申请公开了一种基于深度神经网络的实体关系抽取方法,该方法通过提取字特征、句子特征和类别特征,使用卷积神经网络分析得到抽取结果,解决了长短句问题,提高了实体关系抽取的性能,但未关注词语之间的联系,对于语言特点复杂的中文关系,仍存在实体抽取准确率不高的问题。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种关注关联词的实体关系抽取方法,通过关注关联词,提高多关联词出现时,实体抽取结果的准确性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种关注关联词的实体关系抽取方法,包括以下步骤:
S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;
S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;
S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;
S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。
将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与语义特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。
优选地,所述步骤S1具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910479528.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能警情督导处理系统及方法
- 下一篇:基于分布式系统的意图识别方法及装置