[发明专利]文本语句中两实体的关系确定方法、装置和电子设备有效
申请号: | 202010599867.9 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111813954B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 杨杨;高志鹏;严雨;葛忠迪;张振威;严泽凡;孙寅栋;陶卓;石晓丹;刘会永 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨云云 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语句 实体 关系 确定 方法 装置 电子设备 | ||
本发明实施例提供一种文本语句中两实体的关系确定方法、装置和电子设备,该方法包括:确定待测文本语句和位置信息;将待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;其中,实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。本发明实施例提供的方法、装置和电子设备,实现了评价人体动作识别结果时考虑深度信息,更适用于评价人体动作捕捉。
技术领域
本发明涉及知识图谱实体对关系技术领域,尤其涉及一种文本语句中两实体的关系确定方法、装置和电子设备。
背景技术
随着技术的高速发展,人类可获取的信息量呈指数级增长,在当今的网络中包含了大量非结构或半结构化的信息,从巨量数据中挖掘出实际应用场景需求的信息,是目前大数据领域的研究方向热点。利用技术手段对海量无结构化数据进行自动的归纳、分类、提取等操作,形成结构化的知识并存储,是一个具有挑战性的问题,信息抽取(InformationExtraction)的研究也随之兴起。信息抽取将文本数据中的无结构化信息进行提取,形成结构化的知识,并以统一形式存储,是后续将信息中的知识进行关联融合,构建大规模知识库和关系图谱的基础。
近些年,研究者们提出了远程监督机制(Distant Supervision),对于知识图谱中存在的实体对,将语料中提及这两个实体的句子均用他们在知识库中的关系作为标注。远程监督机制为实体关系抽取模型提供了比较充足的数据,已经成为目前常规的实体关系抽取任务中数据获取的基本手段。但是,远程监督机制虽然扩充了数据量,但是标签与样本的对应关系的准确度得不到保障,包含大量误标注与噪声。直接在这些数据上训练实体关系提取模型,模型的参数更新会受到错误数据的影响,无法达到全局最优,影响抽取精度。
因此,如何避免现有技术中以远程监督机制扩充的包含大量误标注和噪声样本库作为实体关系提取模型的训练样本造成的训练出的实体关系提取模型的低精度,训练出的实体关系提取模型被用于提取实体关系时的准确率低,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种文本语句中两实体的关系确定方法、装置和电子设备,用以解决现有技术中以远程监督机制扩充的包含大量误标注和噪声样本库作为实体关系提取模型的训练样本造成的训练出的实体关系提取模型的低精度,训练出的实体关系提取模型被用于提取实体关系时的准确率低的问题。
第一方面,本发明实施例提供一种文本语句中两实体的关系确定方法,包括:
确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
优选地,该方法中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010599867.9/2.html,转载请声明来源钻瓜专利网。