[发明专利]文本识别方法、装置及计算机存储介质在审

专利信息
申请号: 202110437696.4 申请日: 2021-04-22
公开(公告)号: CN113111644A 公开(公告)日: 2021-07-13
发明(设计)人: 赵亮;杨杰 申请(专利权)人: 上海云从企业发展有限公司
主分类号: G06F40/279 分类号: G06F40/279;G06F40/205;G06F40/126
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 李兴迪
地址: 200000 上海市浦东新区中国(上海)自*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 识别 方法 装置 计算机 存储 介质
【说明书】:

本申请提供一种文本识别方法、装置及计算机存储介质,主要包括根据目标文本和关系特征,获得关系特征的第一特征向量;根据目标文本,获得目标文本的第二特征向量;根据第一特征向量、第二特征向量,从目标文本中获取对应于关系特征的主实体和客实体;以及根据关系特征、对应于关系特征的主实体和客实体,获得目标文本的识别结果,借此,本申请可以有效提高文本识别结果的准确率。

技术领域

本申请实施例涉及文本识别技术领域,特别涉及一种文本识别方法、装置及计算机存储介质。

背景技术

关系三元组的抽取处理过程主要包括,输入一段文本,通过规则或者模型的方法抽取句子中包含的实体以及关系,以此来构成一个关系三元组(s,p,o),其中s(subject)表示主实体,o(object)表示客实体,p(predicate)表示两实体间的关系特征。

比如,针对“姚明,1980年9月12日出生于上海市徐汇区”的文本,其中可包含有关系三元组(姚明,出生地,上海市徐汇区)。提取文本中的三元组是建立知识图谱重要的一个步骤,在大数据时代的今天,从大量非结构化的数据当中自动提取关系三元组建立结构化数据的知识图谱是非常有价值的,可以应用于信息抽取、搜索、问答系统和推荐系统等多个领域。

目前主流的关系三元组提取处理方法大都是通过模型的方式进行抽取,比较有代表性的两个方向是管道方式(pipeline)和联合方式(end-to-end)。

其中,管道方式主要是先进行文本的实体抽取,是一个序列化标注问题,然后将抽取的实体进行两两组合以构建关系矩阵或者进行关系识别,然而,这种方式在第二阶段会产生大量无意义的实体对,由于误差的累计,导致了关系三元组整体抽取的准确率有限。

再者,联合方式则是通常将实体抽取和关系识别放在同一个任务当中,其中共享embedding主干网络,然而,这种方式由于将两个任务结合在一起,导致模型的训练难度较大,同时对于一个包含多个相同关系的文本,三元组抽取准确率往往不及管道方式。

发明内容

鉴于上述问题,本申请提供一种本文识别方法、装置及计算机存储介质,可提高文本识别结果的准确率,并提高文本识别的处理效率。

本申请第一方面提供一种文本识别方法,其包括:根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;根据所述目标文本,获得所述目标文本的第二特征向量;根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。

本申请第二方面提供一种计算机存储介质,所述计算机存储介质中储存有用于执行上述第一方面所述的文本识别方法的各所述步骤的指令。

本申请第三方面提供一种文本识别装置,其包括:特征获取模块,用于根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量,并根据所述目标文本,获得所述目标文本的第二特征向量;以及文本识别模块,用于根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体,并根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。

综上所述,本申请实施例提出了一种从关系识别到实体抽取的关系三元组管道抽取方法,不仅可识别出目标文本中所包含的多种关系,且通过将关系特征对应的编码特征向量与目标文本对应的编码特征进行融合,可以提高关系对应实体的抽取准确率。

再者,本申请实施例提供的文本识别技术不仅可减少现有管道抽取方式中需处理大量无意义实体对的问题,以适用于当目标文本中包含有多个关系特征的情况下的关系三元组的抽取处理,可以提高文本识别处理效率。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110437696.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top