[发明专利]一种评价问答对质量的方法和装置在审
申请号: | 201510981511.0 | 申请日: | 2015-12-23 |
公开(公告)号: | CN106909573A | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 孙林;陈培军;秦吉胜 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司11315 | 代理人: | 许志勇,黄熊 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评价 答对 质量 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,尤其涉及一种评价问答对质量的方法和装置。
背景技术
随着互联网技术的蓬勃发展,用户在生活或工作遇到各种各样的问题时越来越倾向于在问答等社区或者是其他网页中搜索答案。问答社区的基本形式通常为用户根据自己的需求提出问题,并由其他的用户来给出答案。这种形式为用户在网络上获取答案信息提供了新的渠道。然而由于任何用户都可以随意地创建内容,即创建问题和创建答案,导致了问答社区中的信息质量差异非常大,致使问答社区中出现了大量的低质量问答对,降低了问答社区的质量。
为了解决上述问题,问答对质量评价方法的研究工作逐渐开展起来,目前主要是将问答对质量评价问题看作是高质量问答对和低质量问答对的二分类问题,使用文本特征对问题和答案分别建立分类模型,最终将两个分类模型的预测结果融合起来进而对问答对质量进行评价,这里的文本特征主要指文本视觉特征(例如标点符号密度,平均词长,文本熵等)和文本内容特征(例如文本内容词比例,疑问词密度,相关词覆盖等)。
使用文本特征来描述问题和答案时,对问题和答案分别提取出特征后,在训练集上分别学习出一个问题质量预测模型和答案质量预测模型,并使用两个模型的输出结果来评价问答对质量。该技术对问答对质量评价时,仅仅使用了相关词覆盖特征来描述问题和答案间的语义匹配度,这不但仅仅是停留在词法层面上的,而且很多问题和答案间并不存在相关词的覆盖,从而导致问题和答案间的语义匹配度为0,然而问题和答案间的语义匹配度恰恰是问答对质量的核心,例如问答社区中某一问题为“山东的省会是哪个城市”,相应的答案有以下两个“济南”,“山东的省会是北京”。现有技术利用相关词覆盖特征来评价问答对质量时,根据问题和答案间的语义匹配度则会将“山东的省会是哪个城市”和“山东的省会是北京”认为是一个高质量的问答对,这明显与实际不符,由此可以看出,现有技术在问答对进行质量评价时,评价的准确性较低。
发明内容
为解决上述技术问题,本申请实施例提供一种评价问答对质量的方法和装置,用于提高评价问答对质量的准确性。
本申请实施例采用下述技术方案:
一种评价问答对质量的方法,包括:获取待评价问答对的问题内容中的词语和答案内容中的词语;从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,其中,一条问答记录包括一个问题词语、与所述问题词语相关联的多个答案词语,以及每个答案词语分别和所述问题词语之间的语义相关度;根据相匹配的问答记录中的问题词语和答案词语之间的语义相关度,对问答对的质量进行评价。
优选地,从问答知识库中选取与获取到的问题内容中的词语和答案内容中的词语均相匹配的问答记录,具体包括:
将获取到的问题内容中的词语与问答记录中的问题词语相匹配,如果匹配成功,则标记该问答记录;
然后将将获取到的答案内容中的词语与标记的问答记录中的答案词语相匹配,如果匹配成功,则选取该问答记录。
优选地,获取待评价问答对的问题内容中的词语和答案内容中的词语之前,所述方法还包括:
预先提取出多个问答对,并获取每个问答对对应的类别,构建包含有多条问答记录的问答知识库。
优选地,构建包含有多条问答记录的问答知识库,具体包括:
对提取的每一个问答对,提取该问答对的问题内容和答案内容中的词语,得到问题词语集合和答案词语集合;
令问题词语集合中的每个问题词语和答案词语集合中的每个答案词语分别在与该问答对对应的每个类别上形成一条信息记录;
对每一条信息记录,执行以下操作:
计算该答案词语属于该类别的概率,计算在该类别上该答案词语对该问题词语的解释的专一程度,计算在该类别上该问题词语用该答案词语进行解释的强度;
将上述概率、专一程度和强度相乘,所得到的乘积是该答案词语和该问题词语的语义相关度;
令该问题词语,多个答案词语,和,多个答案词语中的每个答案词语和所述问题词语之间的语义相关度形成一条对应于所述类别的问答记录。
优选地,计算该答案词语属于该类别的概率,具体包括:
计算在该类别上该答案词语对该问题词语的解释的专一程度,具体包括:
计算在该类别上该问题词语用该答案词语进行解释的强度,具体包括:
将概率、专一程度和强度相乘,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510981511.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:腰挂饰(墨玉)
- 下一篇:护肘(QH1509)