[发明专利]一种排序学习方法、系统、计算机可读存储介质及设备有效
申请号: | 201811522537.9 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109815317B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 张瑾;万里;洪敏;王新日 | 申请(专利权)人: | 重庆德塔蔓灵科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 402660 重庆市潼*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 排序 学习方法 系统 计算机 可读 存储 介质 设备 | ||
本发明提供一种排序学习方法,该学习方法包括:获取问答数据,并根据众包机制对所述问答数据进行标记;对标记后的所述问答数据进行文本特征提取,以得到训练样本;将所述训练样本作为分类器的输入对分类器进行训练;利用训练好的分类器对待分类的问答数据进行分类。使用本发明可以借助众包机制将主观评价引入模型训练过程中,相比以前提出的方法而言,本框架更关注答案的主观信息。通过构建答案对这样的方式,进一步简化了人工标注的难度,从针对每个答案标注相关性得分转化为比较两个答案之间的好坏。
技术领域
本发明涉及一种学习方法,具体涉及一种排序学习方法、系统及设备。
背景技术
现有答案质量评价方法中主要关注答案的客观特征,答案的主观评价无法得到很好的量化。针对单个答案进行相关度评分没有考虑答案之间的相对顺序。对于传统的排序模型,人工标注训练数据成本高,如果模型参数过多,会使得经验方法的调参非常困难。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种排序学习方法及系统,以解决现有技术中人工标注训练数据成本高的问题。
为实现上述目的及其他相关目的,本发明提供一种排序学习方法,该学习方法包括:
获取问答数据,并根据众包机制对所述问答数据进行标记;
对标记后的所述问答数据进行文本特征提取,以得到训练样本;
将所述训练样本作为分类器的输入对分类器进行训练;
利用训练好的分类器对待分类的问答数据进行分类;
利用打分函数将分类后的问答数据所属的类别对应的标签转换为相应的分数。
可选地,所述根据众包机制对所述问答数据进行标记,具体包括:
收集n个答案A={A1,...,An},n>2;
构造答案对集合P,P∈{(Ai,Aj)|i,j=1,2,...,n},其中,若(Ai,Aj)∈P,则
标注答案对,如果某个答案对中的答案Ai的质量高于答案Aj的质量,则该答案对标注为1,否则标注为0。
可选地,所述对标记后的所述问答数据进行文本特征提取,以得到训练样本,具体包括:
确定所述问答数据对应的特征;
将所述问答数据对应的特征记为特征向量X,将对所述问答数据进行标记的结果记为y;
将每个问答数据表示为<X,y>,则所述的问答数据构成训练样本。
可选地,对提取到的所述文件特征进行归一化处理。
可选地,所述问答数据对应的特征至少包括答案中的词频信息、关键词的IDF信息、答案长度中的一种。
可选地,所述分类器包括KNN、RF、NN、GBDT中的一种。
可选地,所述打分函数为:其中,其中n表示答案个数,表示答案标签的总和,表示答案t和答案m比较分类后得到的标签。
为实现上述目的及其他相关目的,本发明还提供一种排序学习系统,该学习系统包括:
标记模块,用于获取问答数据并根据众包机制对所述问答数据进行标记;
特征提取模块,用于对标记后的所述问答数据进行文本特征提取,以得到训练样本;
训练模块,用于将所述训练样本作为分类器的输入对分类器进行训练;
分类模块,用于利用训练好的分类器对待分类的问答数据进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆德塔蔓灵科技有限公司,未经重庆德塔蔓灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811522537.9/2.html,转载请声明来源钻瓜专利网。