[发明专利]一种结合主动学习的社区问答网站答案排序方法及系统有效
申请号: | 202011240697.1 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112434517B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 刘均;任若清;曾宏伟;马昆明 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30;G06F16/33;G06F16/338;G06F16/9536;G06F16/9538;G06F16/958;G06F18/214;G06F18/22;G06N3/0464;G06N3/045;G06N3/091 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 主动 学习 社区 问答 网站 答案 排序 方法 系统 | ||
一种结合主动学习的社区问答网站答案排序方法及系统,排序方法包括步骤S1进行问答数据表征和建模,步骤S2结合主动学习构建训练集以及候选问答对排序关系预测。本发明同时提供了一种结合主动学习的社区问答网站答案排序系统。本发明首先对CQA网站问答数据进行表征和建模,通过长尾因子解决社区数据长尾分布给答案排序带来的干扰,在卷积神经网络中引入注意力机制缓解问答文本间的语义鸿沟问题。然后将主动学习和答案排序相结合,在基于规则自动构建标注训练集外,还构建未标注训练集,在未标注训练集中额外选择样本进行标注,将标注结果合并之后再次训练答案排序模型,从而实现以尽可能低的标注代价换取到尽可能高的模型性能。
技术领域
本发明涉及互联网技术,具体为一种结合主动学习的社区问答网站答案排序方法及系统。
背景技术
自21世纪以来,以用户为中心的Web2.0技术飞速发展,互联网用户成为拥有网络内容消费者和网络内容生成者双重身份的新时代用户。互联网对用户生成内容(UserGenerate Content,UGC)的支持,使得用户间通过网络可以分享更为复杂、多样的信息,基于此,社区问答(Community Question Answering,CQA)网站应运而生。CQA网站是一类开放的知识信息交流平台,通过自然语言问答形式将有信息需求的用户和乐于分享个人经验知识的用户关联到一起,实现知识信息准确、直接的传递,并支持用户通过点赞、评论等操作表达对问答数据的态度。从2005年第一个CQA网站“Yahoo!Answers”的出现,到至今“StackExchange”、“Quora”、“知乎”、“百度知道”等各类中英文CQA网站的不断出现,吸引了大量用户,成为用户获取信息和分享经验知识的重要渠道。
CQA网站发展至今,用户在系统中获取信息的方式经历了从直接提问到优先搜索的变迁。CQA网站发展初期,没有问答数据积累,有信息需求的用户通常会选择直接提问并等待其他的用户回答,这种方式可以直接获得用户所需信息,但通常等待时间很长,甚至等待很长时间后也没有答案。近年来,CQA网站快速发展,积累了大量问答数据,其中包含着很多相似提问甚至是相同提问,所以大部分用户在提问前会优先基于自己的问题检索CQA网站的历史问答数据,当检索到的历史问答数据无法满足需求时再去提问,从而减少等待时间,提升使用体验。目前主流CQA网站的检索功能一般给用户返回相似问题列表,并分别对每个相似问题的答案根据点赞、评论等数据进行排序。这种方式在一定程度上能够帮助用户进行答案选择,但依然存在问题,例如大量问答数据的浏览和对来自不同相似问题的答案之间的优劣判断造成了用户的认知过载,降低了用户的使用体验。所以,需要对所有相似问题的答案进行统一排序,针对用户的检索目标直接返回已排序的答案列表,帮助用户进行答案选择已成为了研究热点,即CQA网站答案排序任务,也可以称为社区问答任务。然而,CQA网站问答数据的特点给CQA网站答案排序方法的研究造成了困难。首先,CQA网站问答文本长度相差较大,共现词少且分布稀疏,另外,作为用户生成文本,答案文本中包含了大量冗余、噪声甚至是错误信息,加剧了问答文本间的语义鸿沟问题,对文本建模造成了困难;其次,CQA网站相关工作一般会引入基于社区数据计算的社区特征,如基于问题下所有答案总赞同数计算某个答案的赞同数份额,基于用户回答数计算用户平均每个回答所获得的赞同数,这种计算只有在社区数据足够大时才能保证社区特征的准确性。而现实中,CQA网站社区数据呈长尾分布,大量问答数据的社区特征数据很小,导致答案排序模型偏向大量社区特征难以准确反映数据真实水平的问答数据;最后,考虑到CQA网站中问题下正确答案并不唯一,用户对某个答案的评价基于与其他候选答案的比较,所以更适合采用基于答案对的排序方法,即将答案排序问题转换为一系列二分类问题,预测目标问题下任意两个候选答案的排序关系。相较于预测问题和答案间相关性的基于单答案的排序方法,基于答案对的排序方法在训练集标注时需要对任意两个候选答案间的排序关系进行标注,训练集规模增长且标注难度增加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011240697.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种3D晶圆的槽式定位方法
- 下一篇:吊车车架固定支腿焊接回缩工艺