[发明专利]一种基于循环神经网络的社区问答专家推荐方法有效
申请号: | 201711077790.3 | 申请日: | 2017-11-06 |
公开(公告)号: | CN108021616B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 王健;孙吉庆;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284;G06F40/30;G06F40/253 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 王丹;李洪福 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 循环 神经网络 社区 问答 专家 推荐 方法 | ||
1.一种基于循环神经网络的社区问答专家推荐方法,其特征在于,包括如下步骤:
步骤1、获取待处理问答社区所对应的一定时期内的Stack Overflow数据集中的数据并进行预处理;所述数据至少包括Stack Overflow数据集中标签为R语言的语料;
步骤2、对所述问答社区所对应的全部用户进行候选专家筛选,所述候选专家为待处理问答社区所对应的一定时期内的Stack Overflow数据集中其至少一个问题的回答被评选为最佳回答的用户,所述筛选至少包括基于统计分析的方法,对所述用户以其回答被评选为最佳回答的数量自多至少的顺序进行排列后,按照所设定筛选数量依次选择出相应的用户作为候选专家;
步骤3、构建各所述候选专家所对应的专家用户档案即获取每一所述候选专家回答过的问题中被选为最佳答案的全部的问题数据,并以所获取的问题数据中的问题的标签、问题的标题、问题的主体内容以及三者间的任意组合形式作为档案标识组建对应的专家用户档案;
步骤4、基于特定领域知识的词向量训练获得词向量查找表;
步骤5、基于循环神经网络模型进行特征表示学习并构建社区问答专家推荐模型;
利用循环神经网络来自动训练和学习专家用户档案中的特征并将所学习到的特征集F输入softmax分类层以确定出社区问答专家推荐模型,其具体包括下述子步骤:
步骤51、获取每个候选专家所对应的专家用户档案的单词所组成的序列,并基于所述向量查找表将序列中的每个单词映射成向量即词向量;同时某一单词若未能找到对应的词向量,则采用随机初始化的方式进行设定并以所得到的全部词向量构建候选专家用户档案矩阵X,其中k表示词向量的维度,n表示某一候选专家的专家用户档案中所含有的单词数量,即为一个候选专家的用户档案的长度;
步骤52、将所获得的候选专家用户档案矩阵X输入到多种不同的循环神经网络进行特征学习,确定出社区问答专家推荐模型;所述循环神经网络至少包括LSTM循环神经网络、GRU循环神经网络、双向LSTM循环神经网络即Bi-LSTM、双向GRU循环神经网络即Bi-GRU、带注意力机制的Bi-LSTM循环神经网络和带注意力机制的Bi-GRU循环神经网络;
步骤6、基于构建社区问答专家推荐模型,确定待处理问答社区中的新的问题所对应的专家推荐顺序。
2.根据权利要求1所述的方法,其特征在于,
步骤1中的数据预处理,具体包括以下子步骤:
步骤11、确定语料中所需关注的语料内容并进行抽取,所述语料内容至少包括回答问题的文本数据、回答问题的ID,最佳回答者的ID,回答问题的标签,回答问题的标题以及回答问题的主体内容;
步骤12、若所述回答问题的主体内容中涉及代码内容则对所述代码内容进行去除处理;
步骤13、对所述回答问题的文本数据进行去除停用词及标点符号处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711077790.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及用于扫描显示装置的子像素阵列的方法
- 下一篇:冰箱