[发明专利]基于概率图模型的文本属性抽取方法、装置及计算机设备有效
申请号: | 202010761083.1 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111914559B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 程华东;李剑锋;汪伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/35;G06N3/0455;G06N3/0464;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概率 模型 文本 属性 抽取 方法 装置 计算机 设备 | ||
本发明公开了基于概率图模型的文本属性抽取方法、装置、计算机设备及存储介质,涉及人工智能技术,包括将所接收待处理文本输入至BERT神经网络模型得到对应的文本表征输出;将文本表征输出输入至多任务学习分类模型,得到对应的实体类型;将实体类型依次进行递归、向量拼接、特征融合和必要属性抽取,得到实体中的必要属性和必要属性的起始终止位置;将实体中的必要属性和必要属性的起始终止位置依次进行实体表征向量提取、向量拼接特征融合和非必要属性抽取,得到实体中的非必要属性和非必要属性的起始终止位置。实现了对数据的属性抽取准确率的提升,而且对待处理文本的数据格式无限制,可以输入任何结构化的数据或者非结构化的数据。
技术领域
本发明涉及人工智能的智能决策技术领域,尤其涉及一种基于概率图模型的文本属性抽取方法、装置、计算机设备及存储介质。
背景技术
针对文本的属性抽取不同于关系抽取,属性抽取的难点在于不仅要识别实体的属性名还要识别实体的属性值。目前主要的属性抽取方法有基于规则的属性抽取、基于统计模型的属性抽取和基于模式的属性抽取。
其中,基于规则的属性抽取,面向的抽取对象通常是网页、表格等半结构化的数据,对于非结构化的数据处理效果不佳。
基于统计模型的属性抽取方法常采用关系抽取的方法去实现,将属性值当作另一种实体,属性当作实体与实体之间的关系,这种有监督的属性抽取方法需要大量的语料,也无法解决属性共享问题,同时无法解决一个实体名因为属性的不同而区分为多种实体的过程。
基于模式的属性抽取大多采用一种基于依赖分析的模式发现方法,模式发现的过程中会丢失模式中实体周围的丰富信息,同时抽取的模式会通过打分机制来衡量模式的合规性,极容易造成属性抽取遗漏或者属性抽取错误的情况。
发明内容
本发明实施例提供了一种基于概率图模型的文本属性抽取方法、装置、计算机设备及存储介质,旨在解决现有技术中基于规则的属性抽取、基于统计模型的属性抽取和基于模式的属性抽取对待抽取的数据结构有限定,且对数据的属性抽取准确率不高的问题。
第一方面,本发明实施例提供了一种基于概率图模型的文本属性抽取方法,其包括:
接收用户端上传的待处理文本;
调用预先训练的BERT神经网络模型,将所述待处理文本输入至所述BERT神经网络模型进行运算,得到与所述待处理文本对应的文本表征输出;其中,所述文本表征输出中包括多个字分别对应的向量表征;
调用预先训练的多任务学习分类模型,将所述文本表征输出输入至所述多任务学习分类模型进行识别,得到与所述文本表征输出对应的实体类型;
将所述文本表征输出对应的实体类型通过所调用预先存储的实体嵌入矩阵和预先训练的动态图卷积神经网络,依次进行递归、向量拼接、特征融合和必要属性抽取,得到实体中的必要属性和必要属性的起始终止位置;以及
将所述实体中的必要属性和必要属性的起始终止位置通过调用预先训练的Bi-LSTM模型,依次进行实体表征向量提取、向量拼接特征融合和非必要属性抽取,得到实体中的非必要属性和非必要属性的起始终止位置。
第二方面,本发明实施例提供了一种基于概率图模型的文本属性抽取装置,其包括:
文本接收单元,用于接收用户端上传的待处理文本;
文本表征输出获取单元,用于调用预先训练的BERT神经网络模型,将所述待处理文本输入至所述BERT神经网络模型进行运算,得到与所述待处理文本对应的文本表征输出;其中,所述文本表征输出中包括多个字分别对应的向量表征;
实体类型识别单元,用于调用预先训练的多任务学习分类模型,将所述文本表征输出输入至所述多任务学习分类模型进行识别,得到与所述文本表征输出对应的实体类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010761083.1/2.html,转载请声明来源钻瓜专利网。