[发明专利]指代消解方法及装置有效
申请号: | 202010469113.1 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111626042B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李巧;伍文成;朱永强 | 申请(专利权)人: | 成都网安科技发展有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289 |
代理公司: | 成都极刻智慧知识产权代理事务所(普通合伙) 51310 | 代理人: | 唐维虎 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 消解 方法 装置 | ||
1.一种指代消解方法,其特征在于,应用于计算机设备,所述方法包括:
获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集,所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息;
确定每个训练样本对应的先行语候选集,并根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量,其中,所述特征向量用于反映照应语和先行语之间的语义关系;
将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练,得到指代消解模型,其中,所述指代消解模型用于对待指代消解的语句进行指代消解;
其中,所述根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量的步骤,包括:
针对每个训练样本,当该训练样本中的代词类别为第三人称代词时,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量;以及
当该训练样本中的代词类别为指示代词时,根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量;
其中,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量的步骤,包括:
基于第一设定规则提取所述先行语候选集中的每个元素对应的第一规则特征向量,所述第一规则特征向量包括单复数一致特征向量、性别一致特征向量、词频特征向量、距离特征向量中的至少一种,其中,所述单复数一致特征向量用于表征先行语与对应的第三人称代词的单复数属性一致性,所述性别一致特征向量用于表征在先行语与对应的第三人称代词都代指人的情况下的性别属性一致性,所述词频特征向量用于表征在先行语的词频特征,所述距离特征向量用于表征先行语与对应的第三人称代词之间的距离特征;
提取所述先行语候选集中的每个元素对应的句法特征向量,其中,所述句法特征向量用于表征每个元素在对应的分句中的句法关系特征;以及
提取所述先行语候选集中的每个元素对应的相似性特征向量;
将所述第一规则特征向量、句法特征向量以及相似性特征向量构建为第一特征向量。
2.根据权利要求1所述的指代消解方法,其特征在于,所述获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集的步骤,包括:
获取待处理文本并对所述待处理文本进行分段,将分段获得的多个分段文本进行分句,得到多个分句;
对每个分句进行分词获得分词序列,并提取所述分词序列的句法分析特征、词性标注特征和命名实体识别特征,作为每个分句的训练样本;
获取每个分句的训练样本对应的指代消解标签,并将所述指代消解标签关联到对应分句的训练样本,以获得训练样本集。
3.根据权利要求1所述的指代消解方法,其特征在于,提取所述先行语候选集中的每个元素对应的相似性特征向量的步骤,包括:
针对所述先行语候选集中的每个元素,获取该元素的第三人称代词出现后的第一个动词,作为第一动词;
获取在所述第三人称代词出现之前所有的动词,作为第二动词;
计算所述第一动词和每个所述第二动词之间的相似度,并将相似度值最高的动词所对应的主语作为先行语;
若在所述先行语与对应的元素的先行语匹配,则确定该元素对应的相似性特征向量为第一预设特征向量,若在所述先行语与对应的元素的先行语不匹配,则确定该元素对应的相似性特征向量为第二预设特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469113.1/1.html,转载请声明来源钻瓜专利网。