[发明专利]实体关系的抽取方法及装置、存储介质、电子设备在审
申请号: | 202011457766.4 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112579752A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 王博;张文剑;薛小娜 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/295 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 蔡良伟 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 存储 介质 电子设备 | ||
本发明公开了一种实体关系的抽取方法及装置、存储介质、电子设备,属于人工智能领域。其中,该方法包括:获取待识别的原始自然语句;基于预设通用规则识别所述原始自然语句中的问题实体;采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。通过本发明,解决了相关技术从自然语句中获取问题实体和实体关系效率低的技术问题,提高了问答系统在多个业务领域的可迁移性,解决了问答系统对领域数据的依赖问题,提高了问答系统效率和适用性。
技术领域
本发明涉及人工智能领域,具体而言,涉及一种实体关系的抽取方法及装置、存储介质、电子设备。
背景技术
相关技术中,问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。其本质是一个从问句到答案的映射过程。近年来,随着知识库的快速发展,基于知识库的问答系统引起了大量的关注。
相关技术中的知识库问答方法包括基于规则的知识库问答和基于深度学习的问答方法。基于规则的知识库问答根据问题的语法,语义等手工地预定义一些规则,再利用这些规则对问题中的实体以及关系进行匹配;而基于深度学习的问答方法,则根据大量的已标注语料进行模型训练,利用训练好的模型对问题中实体和关系进行识别和抽取。基于规则的知识库问答方法逻辑简单明了,往往能够取得不错的效果,但是其规则的制定却十分繁琐冗杂,而且大量的规则不利于问答系统在不同领域的扩展和迁移,算法适用性较差。近年来,随着机器学习,深度学习的不断发展,利用深度学习在命名实体识别的任务上的优良表现,知识库问答系统也经常结合深度学习方法作问句中实体的召回,但是深度学习方法对训练数据集的数量和质量都有着较高的要求,这就需要耗费成本收集大量的数据并对原始数据进行标注和清洗,而且每当数据进行更新,就要针对最新的数据重新训练模型,导致模型的迁移能力和数据泛化能力较差,而拥有较高准确度的复杂模型(预训练模型)又会带来效率问题。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种实体关系的抽取方法及装置、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种实体关系的抽取方法,包括:获取待识别的原始自然语句;基于预设通用规则识别所述原始自然语句中的问题实体;采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
进一步,基于预设通用规则识别所述原始自然语句中的问题实体包括:对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;基于所述中间语句从预设实体词典中召回M个候选知识库实体;分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
进一步,基于所述中间语句从预设实体词典中召回M个候选知识库实体包括以下至少之一:将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
进一步,基于所述目标特征对所述M个候选知识库实体进行特征度排序包括:获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式调节得到;采用所述权重组合加权求和所述目标特征的特征度;基于所述目标特征对所述M个候选知识库实体进行特征度排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011457766.4/2.html,转载请声明来源钻瓜专利网。