[发明专利]一种问答对的质量评价方法和系统无效
申请号: | 200910081558.6 | 申请日: | 2009-04-13 |
公开(公告)号: | CN101520802A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 方高林;刘怀军;郑全战 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) | 代理人: | 蒋雅洁;程立民 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 答对 质量 评价 方法 系统 | ||
1、一种问答对的质量评价方法,其特征在于,该方法包括:
对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成的簇;
对所述簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问答对间的质量评价结果和问答对内的质量评价结果;
对所述问答对间的质量评价结果和问答对内的质量评价结果进行融合,输出高质量的问答对。
2、根据权利要求1所述问答对的质量评价方法,其特征在于,所述聚类包括:k-means聚类和单遍聚类。
3、根据权利要求2所述问答对的质量评价方法,其特征在于,所述单遍聚类具体为:
将后输入的问题与当前存在的类一一进行相似度计算,如果所述问题与其中一个类的相似度超出预设的相似度阈值,则将所述问题与对应的类进行合并;如果所述问题与当前存在的所有类的相似度都低于预设的相似度阈值,则为所述问题创建一个新的类。
4、根据权利要求1所述问答对的质量评价方法,其特征在于,所述问答对间的质量评价,具体为:
对所述簇内的每个答复进行分词、词性标注和去除停用词处理;
统计每个词出现的文档频率,并将文档频率大于频率阈值的词作为簇内所有答复的主题中心;
通过通用余弦距离函数计算每个答复与主题中心的距离,并按照距离的权值大小对各个答复进行排序;
根据基于句子级的相似度计算,消除排序后的答复中的相似关系和包含关系,得到所述问答对间的质量评价结果。
5、根据权利要求1所述问答对的质量评价方法,其特征在于,所述问答对内的质量评价包括:问题和答复质量的评价、问题和答复的匹配度计算、以及单个问答对质量的评价。
6、根据权利要求5所述问答对的质量评价方法,其特征在于,所述问题和答复质量的评价内容包括以下内容中的至少一种:问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征和问答对形成过程中的非文本特征。
7、根据权利要求5所述问答对的质量评价方法,其特征在于,该方法进一步包括:通过基于主题聚类的方式获得所述问题和答复的匹配度。
8、根据权利要求5所述问答对内的质量评价方法,其特征在于,所述单个问答对质量的评价,具体为:
通过最大熵统计模型对以下特征进行融合,得到各个问答对的质量评价分值:
问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征、问答对形成过程中的非文本特征、问题和答复的匹配度。
9、一种问答对的质量评价系统,其特征在于,该系统包括:
聚类模块,用于对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成的簇;
第一质量评价模块,用于对所述簇进行问答对间的质量评价,得到问答对间的质量评价结果;
第二质量评价模块,用于对所述簇进行问答对内的质量评价,得到问答对内的质量评价结果;
融合模块,用于对所述问答对间的质量评价结果和问答对内的质量评价结果进行融合,输出高质量的问答对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910081558.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于医学临床试验的中央随机系统
- 下一篇:直接用串口信号控制装置的系统