[发明专利]指代消解方法、电子装置及计算机可读存储介质有效
申请号: | 201811168621.5 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109446517B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 赵峰;杜展;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/295 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 张超艳;陈英俊 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 消解 方法 电子 装置 计算机 可读 存储 介质 | ||
本发明涉及大数据分析,提供一种指代消解方法,包括:对文本进行分词得到指代集合及候选先行集合;根据特征指标构建指代词和候选先行词之间的特征向量;模拟指代词、权重矩阵和候选先行集合子集的分类情况,将每种分类情况对应的特征向量输入分类模型,得到每个指代词对应的权重矩阵和候选先行词子集;采用排序模型对候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;在聚类决策中考虑排序模型权重对指代同一先行词的不同指代词进行聚类,得到指代簇。本发明还提出了一种电子装置及计算机可读存储介质。本发明通过模型套叠引入一个能够结合指代对信息和实体层面信息的指代消解,提高了识别的正确率。
技术领域
本发明涉及文本处理技术领域,更为具体地,涉及一种指代消解方法、电子装置及计算机可读存储介质。
背景技术
指代消解,即辨认在文本中哪些指代指的是同一个真实世界中的实体的任务,是文本理解中的一个重要方面,有着广泛的应用。很多指代消解的方法都是用学习一个定义在指代对上的计分函数来做出共指(两个指代词指的是同一实体)的判断。然而,这样的方法没有用到实体层次的信息,即指代之间的特征。
发明内容
鉴于上述问题,本发明的目的是提供一种结合实体层次的信息,提高识别的正确率的指代消解方法、电子装置和计算机可读存储介质。
为了实现上述目的,本发明提供一种电子装置,所述电子装置包括存储器和处理器,所述存储器中包括指代消解程序,所述指代消解程序被所述处理器执行时实现如下步骤:
对文本进行分词,得到指代集合及候选先行集合;
根据特征指标构建每个指代词和每个候选先行词之间的特征向量,所述特征指标包括距离特征、语法特征、语义特征和基于规则特征中的一种或多种;
模拟各指代词在各种权重矩阵下的指代各候选先行集合子集的分类情况,将每一种分类情况对应的特征向量输入分类模型,得到每个指代词对应的分类模型的权重矩阵和候选先行词子集;
采用排序模型对每个指代词的上述候选先行词子集中各候选先行词按照设定规则进行排序,得到每个指代词对应的先行词和权重;
在聚类决策中考虑上述排序模型的权重对指代同一先行词的不同指代词进行聚类,得到指代簇。
优选地,所述分类模型的训练步骤包括:
构建每一个指代词对应的候选先行集合的各子集的特征向量矩阵;
构建第一权重矩阵,所述第一权重矩阵的元素个数和候选先行集合元素个数相同;
根据下式(1)构建每个指代词和每个候选先行集合的子集的共指概率模型
其中,为指代词mj和候选先行组合的子集Ai在权重矩阵下θi的共指概率,f(Ai,mj)为指代词mj对应的候选先行组合的子集Ai的特征向量矩阵;
将每一个候选先行词作为一类,通过优化损失函数得到分类模型;
根据已指代消解的文本构建训练集,所述训练集包括训练指代集合及每个指代词的正确先行词集合和错误先行词集合;
将训练集代入共指概率模型和分类模型,得到分类模型的第一权重矩阵中各权重的值。
优选地,所述聚类模型的聚类步骤包括:
根据下式(4)构建指代对分数模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811168621.5/2.html,转载请声明来源钻瓜专利网。