[发明专利]基于多特征的问题可回答性判别方法及计算机存储介质有效
申请号: | 201910881528.7 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110781275B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 徐建;吴蔚;王鑫鹏 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/289;G06F40/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210002 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 问题 回答 判别 方法 计算机 存储 介质 | ||
本发明公开了一种基于多特征的问题可回答性判别方法及计算机存储介质,所述方法包括以下步骤:1)对问题和文章对进行预处理并统计语料信息;2)计算问题和文章的4种交互特征,所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征;所述距离特征为两个句子编码间的距离;所述共现特征为两个句子中的词共现个数;所述归一化点互信息为单词之间的结合紧密程度;所述主题特征为句子语义上的相似度;3)选择阈值并进行分类判别。本发明解决了现有方法无法充分刻画问题和文章特征的不足,充分地挖掘问题和文章的特征以及二者的交互特征,较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。
技术领域
本发明涉及一种问题可回答性判别方法及计算机存储介质,特别是涉及一种基于多特征的问题可回答性判别方法及计算机存储介质。
背景技术
判断文章是否包含足够的信息回答给定的问题是一个极具挑战性的问题,也是许多其他任务的前提任务,比如:针对社区问题需要判断某个答案能够回复用户提出的问题,针对多文档阅读理解任务需要判断给定的文章能否回答提出的问题。所以该任务是自然语言中非常重要的基础任务,该任务的解决效果直接影响了其他后续任务。现有的判别方法无法充分刻画问题和文章的特征,因而判别效果不够好,所以需要一种能够充分刻画二者及其关系的判别方法。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于多特征的问题可回答性判别方法及计算机存储介质,解决了现有方法无法充分刻画问题和文章特征的不足,充分地挖掘问题和文章的特征以及二者的交互特征,特别是针对军事领域数据的特点进行深度的挖掘和分析,较好地实现了针对给定的问题判断某篇文章是否可以回答该问题。
技术方案:本发明所述的基于多特征的问题可回答性判别方法,包括以下步骤:
(1)对问题和文章对进行预处理并统计语料信息;
(2)计算问题和文章的4种交互特征,所述4种交互特征为距离特征、共现特征、归一化点互信息和主题特征;
所述距离特征为两个句子编码间的距离;
所述共现特征为两个句子中的词共现个数;
所述归一化点互信息为单词之间的结合紧密程度;
所述主题特征为句子语义上的相似度;
(3)选择阈值并进行分类判别。
进一步的,步骤(1)具体包括以下步骤:
(1.1)对问题和文章对利用分词器进行分词;
(1.2)针对分词后的文章统计文章个数及文章平均单词个数;
(1.3)根据分词对文章建立索引;
(1.4)针对每个分词后的问题和文章对,分别计算词频,并针对各自的单词进行组合,对组合成的单词对计算归一化点互信息npmi,
其中,c12表示两个单词共现词频,ndocs表示单词所在文章的总计词数,c1表示单词1出现词频;c2表示单词2的出现词频。
进一步的,步骤(2)中计算问题q和文章d的距离特征的方法为:
其中,f(qi,d)表示问题的单词qi在文章d的出现词频,avg_dl表示在文章d的平均文档长度,D表示文章总个数,nt表示单词qi出现的文章总个数,k1为取正值的调优参数,用于对文档中的词项频率进行缩放控制,b是调节参数,用于决定文档长度的缩放程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881528.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种问答对生成的方法与装置
- 下一篇:文本抽取方法、装置、设备及存储介质