[发明专利]一种基于词向量的问题路由方法有效
申请号: | 201510057352.5 | 申请日: | 2015-02-03 |
公开(公告)号: | CN104636456B | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 王健;董华磊;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连星海专利事务所有限公司21208 | 代理人: | 王树本 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 问题 路由 方法 | ||
技术领域
本发明涉及一种问题路由方法,更具体地说,涉及一种基于词向量的问题路由方法。
背景技术
近年来的问答社区,如Yahoo!Answers、百度知道和Stackoverflow等已经变得越来越流行,大众在社区分享知识,每天都有海量的用户提问问题,社区里面的问题回答内容为用户提供了可选的答案。一般社区问答网站会按照问题类别对问题进行划分,当用户提问问题时会选择一个合适的类别,即问题标签,等待其他用户回答。提问者必须等待其他用户浏览了该社区,阅读了该问题才有可能提供答案,并且可能很多用户回答以后方可得到最佳答案,这个过程一般需要数小时或者数天,这样滞后获得的最佳答案对于提问者可能已经没有实际意义了。另外一方面,如果用户是专家往往可以提供比较优质的答案,但是专家用户可能并没有访问该社区,或者在社区中未发现自己感兴趣的问题,所以没有给出最佳答案。为了改善这种状况,一种比较好的方法是采用问题路由(Question Routing)方法,把新问题推送给社区中最适合回答这个问题的人。问题路由如何选择合适的专家,需要考虑用户的历史信息,即用户之前回答过什么问题或者回答过什么内容,为每个在社区中回答过问题的用户建立用户档案。本发明对用户提出的问题预测最佳回答者,即针对用户所提的新问题,找到能给予最佳答案的回答者。目前关于问题路由的方法主要可以分为以下两类:
一类是基于词共现的方法,该方法是在用户给定问题之前,为每个在社区中注册过的用户构建用户档案,档案中是用户回答过的问题或者提问过的问题,当有其他用户提出问题时,根据用户档案预测最佳回答者,对问题中的词与出现过该词的用户档案进行检索并打分。这种方法需要包含用户的查询词,常见的有VSM、Language Model、BM25和布尔模型等方法。这些方法比较经典,但它们忽略了那些没有共现词或共现词很少,却语义相关的用户,因而在预测最佳回答者方面尚存在欠缺。
另一类是基于语义关联方法,这类方法能够利用用户所提问题的语义信息检索用户档案,丰富查询结果,常见的主要有潜在语义模型(LSA)、概率潜在语义分析模型(PLSA),以及文档生成模型(LDA)等。这类方法在一定程度上提高了检索的召回率,但是往往会因引入大量噪音信息而降低准确度。
故此,如何准确、高效地预测最佳回答者成为社区问答亟待解决的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于词向量的问题路由方法。该方法利用词向量满足叠加性这一优点,运用word2vec训练数据获得词向量,采用词向量来表示文档向量。对于每一篇文档,抽取能代表该文档特征的词作为主题词,将主题词向量叠加代表文档向量,然后计算用户档案向量和问题向量之间的相似度,同时融入权威度和活跃度计算用户的先验概率,最终综合得出用户是最佳回答者的概率,依此排序来预测最佳回答者,从而提高了预测准确度。
为了实现上述发明目的,解决现有技术中存在的问题,本发明采取的技术方案是:一种基于词向量的问题路由方法,包括以下步骤:
步骤1、用户档案的构建:根据用户的回答历史为用户构建档案,社区问答中回答过问题的用户都是一个新问题的候选回答者,对于每个用户档案的构建,具体包括以下子步骤:
步骤(a)、从Stackoverflow网站提供的网址下载从网站建立之初2008年7月到目前2014年3月为止的所有数据,数据为XML格式,读取XML文件格式抽取所有问题,其中包括问题的标签tag域、标题title域和内容body域;
步骤(b)、收集用户回答过的问题中被选为最佳答案的那些问题组成用户的档案;
步骤(c)、忽略用户回答的问题中被选为最佳答案的数量比较少的用户,只选择回答的问题中至少包含10个被选为最佳答案的用户作为候选回答者;
步骤2、数据预处理,具体包括以下子步骤:
步骤(a)、由于该问答社区中的问题都与计算机编程相关,所以用户提出的问题中body域往往会包含许多代码,而代码中不含有语义信息,对训练结果没有帮助,甚至对训练结果产生不良影响,因而把XML格式文件中<code></code>之间的代码信息去除;
步骤(b)、用户档案和测试集中的问题去除停用词及标点符号;
步骤3、词向量的训练,具体包括以下子步骤:
步骤(a)、根据处理好的数据,对特征词进行Huffman编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510057352.5/2.html,转载请声明来源钻瓜专利网。