[发明专利]问句实体识别与链接方法、装置、计算机设备及存储介质有效
申请号: | 201910594762.1 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110502740B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 朱威;李恬静 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 林彦之 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问句 实体 识别 链接 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种问句实体识别与链接方法,包括接收用户问句,识别用户问句中的待确认实体、初步实体边界以及实体类别,调整初步起始位置、初步结束位置的位置编号,得到多个调整后的实体边界作为待确定实体的侯选实体边界;根据候选实体边界,确定用户问句中候选实体;根据确定的实体类别,在知识图谱中搜索每个候选实体,确定每个候选实体对应的候选实体名称,并根据相似度算法确定候选实体与候选实体名称的相似度;选取相似度最高的候选实体名称以及对应的候选实体边界作为实体链接的结果进行输出。可有效降低NER模型对问答系统后续步骤的错误传递效应,同时合理利用图谱层级结构,进行更合理的实体链接。
技术领域
本发明涉及知识图谱领域,尤其涉及一种问句实体识别与链接方法、装置、计算机设备及存储介质。
背景技术
目前业界与学界大量采用bi-LSTM-CRF网络来进行各类实体识别(NER)任务,包括知识库问答中的实体识别。但是神经网络模型泛化能力有限,在实际应用中NER模型很有可能会将一个实体在问句中的起始和终结位置弄错,这样对后续的实体链接影响很大。另外目前知识图谱问答系统,大部分处于开放领域,由于实体种类太多,对于实体层级结构不能很好利用。但是,在垂直领域,实体的层级结构较为清晰。例如在医药领域知识图谱,“心血管系统用药”有血管保护药,利尿药等子类药物,这些子类下面又有更多子类,这些ATC层级药品实体下面又会有目前在市场上销售的各个药品商品。实体链接需要依据这些层级结构,才能做好回答。例如:“阿司匹林怎么服用”,我们不能按照搜索结果随意给出一个阿司匹林类药物商品,而是应该意识到阿司匹林是一大类药(“乙酰水杨酸”),并且找到所有属于这一类的具体药品商品,方可有效进行实体识别与链接。
发明内容
本发明的目的是提供一种问句实体识别与链接方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种问句实体识别与链接方法,包括以下步骤:接收用户问句,识别所述用户问句中的待确认实体、以及所述待确认实体的初步实体边界以及实体类别,所述初步实体边界为待确认实体在所述用户问句中的初步起始位置与初步结束位置;
调整所述初步起始位置、所述初步结束位置的位置编号,得到多个调整后的实体边界作为所述待确定实体的侯选实体边界;
根据所述候选实体边界确定所述候选实体边界位置对应的字符串,以确定所述用户问句中的候选实体;
根据所述实体类别,在预先建立的知识图谱中搜索每个所述候选实体,确定每个所述候选实体对应的候选实体名称,并根据相似度算法确定所述候选实体与所述候选实体名称的相似度;
选取相似度最高的所述候选实体名称以及对应的所述候选实体边界作为实体链接的结果进行输出。
优选的,接收所述用户问句后,基于NER模型识别所述用户问句,并确定所述用户问句中的待确认实体、以及所述待确认实体的初步实体边界以及实体类别。
优选的,扩大所述初步实体边界的取值范围包括:将所述初步起始位置的位置编号依据预设数值分别向前、向后扩展,同时将所述初步结束位置的位置编号依据预设数值分别向前、向后扩展,以扩大所述取值范围。
进一步的,扩大所述取值范围后,还包括删除不合理取值范围步骤,所述不合理取值范围包括:调整后的所述初步起始位置编号大于调整后的所述初步结束位置编号;和/或,不同的所述候选实体边界取值范围重叠。
优选的,所述预设数值的取值大小确定包括以下步骤:计算任一领域中NER模型所预测的实体边界中偏移取值,并基于统计的方法选取频率最高的偏移取值作为所述预定领域的预设数值。
优选的,基于elasticsearch工具建立知识图谱中实体名称索引和/或别名索引,根据所述候选实体在所述索引中查找,以确定所述候选实体名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594762.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:结构化输入的机器学习模型的构建
- 下一篇:中文文本的识别方法及装置