[发明专利]一种结合主动学习的社区问答网站答案排序方法及系统有效

专利信息
申请号: 202011240697.1 申请日: 2020-11-09
公开(公告)号: CN112434517B 公开(公告)日: 2023-08-04
发明(设计)人: 刘均;任若清;曾宏伟;马昆明 申请(专利权)人: 西安交通大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/289;G06F40/30;G06F16/33;G06F16/338;G06F16/9536;G06F16/9538;G06F16/958;G06F18/214;G06F18/22;G06N3/0464;G06N3/045;G06N3/091
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 安彦彦
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 主动 学习 社区 问答 网站 答案 排序 方法 系统
【权利要求书】:

1.一种结合主动学习的社区问答网站答案排序方法,其特征在于,包括以下步骤:

S1、问答数据表征和建模:首先抽取问答数据文本特征,将分词以及去停用词后的问题标题和答案内容表示为词向量矩阵;然后基于问答相关社区数据计算问答数据社区特征,通过问题长尾因子和用户长尾因子将问题下答案总赞同数和用户回答数映射到(0,1)之间,将所述的问答数据社区特征乘以问题长尾因子和用户长尾因子代替原先的问答数据社区特征;最后将问答数据社区特征输入QQA-CNN模型将问答数据表征为分布式向量;

S2、结合主动学习构建训练集以及候选问答对排序关系预测:首先对问答数据集进行统计分析,将统计结果形式化为规则,基于规则自动构建初步的标注训练集;然后基于QQA-CNN模型构建答案排序模型并预测任意两个候选答案间的排序关系;最后构建未标注训练集,结合主动学习从中选择额外样本进行人工标注,将标注结果合并进初步的标注训练集再次训练答案排序模型,利用再次训练后的答案排序模型进行社区问答网站答案排序;

所述的QQA-CNN模型的结构包括针对目标问题的深度网络、针对候选答案的深度网络,以及两个深度网络间的注意力机制模块和特征连接层;针对目标问题的深度网络包括两个卷积层和两个池化层,针对候选答案的深度网络包含三个卷积层和三个池化层,QQA-CNN模型在两个深度网络前、两个池化层间分别引入了两个注意力机制模块,最终在特征连接层中将学习得到的目标问题和候选答案的高层语义特征、社区特征以及目标问题和候选答案对应原问题相似度特征四部分进行连接,得到CQA网站问答数据的表征;

所述的卷积层中,QQA-CNN模型采用宽卷积提取连续的若干个词语的语义特征;池化层中,QQA-CNN模型采用两种池化策略,对于中间池化层QQA-CNN模型采取部分池化,即对一定长度窗口内的特征进行平均池化;对于网络中的最后一个池化层,QQA-CNN模型采用全部池化,即对卷积结果在句长维度上进行平均池化;注意力机制模块基于两个深度模型卷积层输出的特征图计算注意力权重,将结果应用于池化层中进行加权池化,对于目标问题和候选答案文本特征经过卷积层得到的特征图和注意力矩阵A计算表达式如下:

式中:|·|表示欧几里得距离;

注意力矩阵A中,在每行和每列上对元素进行求和即为单词的权重;

所述的特征连接层进行特征的合并,包括目标问题文本的高层语义特征、候选答案文本的高层语义特征、问答数据相关社区特征以及目标问题和候选答案原问题文本特征矩阵的余弦相似度,最终通过QQA-CNN模型将问答数据表征为分布式向量。

2.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1首先对问答数据中目标问题的标题、候选答案的内容和候选答案对应原问题的标题进行分词和去停用词,然后利用word2vec分别将文本表示为词向量矩阵。

3.根据权利要求1所述结合主动学习的社区问答网站答案排序方法,其特征在于:所述的步骤S1中问答相关社区数据包括问题答案数、答案赞同份额、用户回答数、用户平均赞同数、用户平均喜欢数、用户答案平均被收藏数以及用户关注者数;

所述的问题答案数指问题下的答案总数,所述的用户回答数指用户在网站中提供的答案总数,所述的用户关注者数指用户被关注的总人次;所述的答案赞同份额指答案获得的赞同数在问题所有答案获得的总赞同数中的比例,答案赞同份额的计算方式如下:

式中:表示答案的赞同份额;表示答案获得的赞同数;表示问题qi下所有答案的赞同数之和;mi表示问题qi下的答案总数;

所述的用户平均赞同数、用户平均喜欢数以及用户答案平均被收藏数分别指的是用户平均每个回答获得的赞同数、喜欢数和被收藏数,其计算方式如下:

式中:uaci表示用户ui的回答数;uvci表示用户ui所有回答获得的总赞同数,即用户赞同数;ulai表示用户ui的平均喜欢数;ulci表示用户ui所有回答获得的喜欢数总和,即用户喜欢数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011240697.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top