[发明专利]一种问答对的质量评价方法和系统无效
申请号: | 200910081558.6 | 申请日: | 2009-04-13 |
公开(公告)号: | CN101520802A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 方高林;刘怀军;郑全战 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) | 代理人: | 蒋雅洁;程立民 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 答对 质量 评价 方法 系统 | ||
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种问答对的质量评价方法和系统。
背景技术
随着互联网的发展,信息越来越丰富,如何从海量的信息中获取有用的知识是目前急需解决的问题。为了能够提供更好的知识服务,多个知识问答互动平台陆续发展起来。在这些知识问答互动平台上,用户既是内容的消费者,也是内容的创造者;用户可以通过知识问答互动平台寻求娱乐的帮助、进行社会交往,也可以提问和回答问题、并对问题的答案进行评价。典型的问答产生流程是:用户在知识问答互动平台上提出问题,其他用户参与回答,提问的用户对不同用户的答复确认一个满意答案。
随着问题数的增多,语义重复的问题数也越来越多,大多用户在提问的时候,并没有关心系统里面是否存在相同的问题和答案。因此,在目前的问答互动平台上,存在着很多重复的问答对。虽然对于已经解决的问题来说,都经过了提问者确认这一步骤,但是不同提问者的确认标准不一样,有些提问者仅仅是感谢回答者提供答案而给出很高的评价,并不在乎答复的质量。因此,在这些存在重复问题和答案的知识问答互动平台上,区分高质量的问答对和低质量的问答对显得非常必要。
现有技术中存在一种采用决策树框架来融合多种特征对问答对进行分类的方法。用到的特征包括:基于文本内容特征和基于用法特征。文本内容特征如词的N元组(N-grams)、词的长度、基于字符的三元文法(Trigram)语言模型熵值、答复中不同的词数、频率大于阈值的词数目等等。用法特征主要包括:用户对于问答对的赞成和反对数目、回答者的级别、提问者的级别等等。该方法针对不同特征所起的作用进行研究,并将其融入决策树框架下实现对高质量问答对和中低质量问答对的区分。
然而,该方法并没有考虑问题和答复之间的语义匹配度,而问题和答复之间的语义匹配度则是高质量问答对的基础;该方法没有考虑许多重复问答对之间的关系对于问答对质量的影响;另外,通常问答对的数据缺少产生过程中的用法特征,而该方法更多的依赖用法特征,会影响其通用性。由此可以看出,现有技术在对问答对进行质量评价时,其效果并不理想,且存在通用性差的问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种问答对的质量评价方法和系统,以实现对问答对更有效的质量评价,提高通用性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种问答对的质量评价方法,该方法包括:
对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成的簇;
对所述簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问答对间的质量评价结果和问答对内的质量评价结果;
对所述问答对间的质量评价结果和问答对内的质量评价结果进行融合,输出高质量的问答对。
所述聚类包括:k-means聚类和单遍聚类。
所述单遍聚类具体为:
将后输入的问题与当前存在的类一一进行相似度计算,如果所述问题与其中一个类的相似度超出预设的相似度阈值,则将所述问题与对应的类进行合并;如果所述问题与当前存在的所有类的相似度都低于预设的相似度阈值,则为所述问题创建一个新的类。
述问答对间的质量评价,具体为:
对所述簇内的每个答复进行分词、词性标注和去除停用词处理;
统计每个词出现的文档频率,并将文档频率大于频率阈值的词作为簇内所有答复的主题中心;
通过通用余弦距离函数计算每个答复与主题中心的距离,并按照距离的权值大小对各个答复进行排序;
根据基于句子级的相似度计算,消除排序后的答复中的相似关系和包含关系,得到所述问答对间的质量评价结果。
所述问答对内的质量评价包括:问题和答复质量的评价、问题和答复的匹配度计算、以及单个问答对质量的评价。
所述问题和答复质量的评价内容包括以下内容中的至少一种:问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征和问答对形成过程中的非文本特征。
该方法进一步包括:通过基于主题聚类的方式获得所述问题和答复的匹配度。
所述单个问答对质量的评价,具体为:
通过最大熵统计模型对以下特征进行融合,得到各个问答对的质量评价分值:
问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征、问答对形成过程中的非文本特征、问题和答复的匹配度。
本发明还提供了一种问答对的质量评价系统,该系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910081558.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于医学临床试验的中央随机系统
- 下一篇:直接用串口信号控制装置的系统