[发明专利]一种排序学习方法、系统、计算机可读存储介质及设备有效
申请号: | 201811522537.9 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109815317B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 张瑾;万里;洪敏;王新日 | 申请(专利权)人: | 重庆德塔蔓灵科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 尹丽云 |
地址: | 402660 重庆市潼*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 排序 学习方法 系统 计算机 可读 存储 介质 设备 | ||
1.一种排序学习方法,其特征在于,该学习方法包括:
获取问答数据,并根据众包机制对所述问答数据进行标记;
对标记后的所述问答数据进行文本特征提取,以得到训练样本;
将所述训练样本作为分类器的输入对分类器进行训练;
利用训练好的分类器对待分类的问答数据进行分类;
利用打分函数将分类后的问答数据所属的类别对应的标签转换为相应的分数;
所述根据众包机制对所述问答数据进行标记,具体包括:
收集n个答案A={A1,...,An},n>2;
构造答案对集合P,P∈{(Ai,Aj)|i,j=1,2,...,n},其中,若(Ai,Aj)∈P,则
标注答案对,如果某个答案对中的答案Ai的质量高于答案Aj的质量,则该答案对标注为1,否则标注为0;
所述打分函数为:其中,其中n表示答案个数,表示答案标签的总和,表示答案t和答案m比较分类后得到的标签。
2.根据权利要求1所述的一种排序学习方法,其特征在于,所述对标记后的所述问答数据进行文本特征提取,以得到训练样本,具体包括:
确定问答数据对应的特征;
将所述问答数据对应的特征记为特征向量X,将对所述问答数据进行标记的结果记为y;
将每个问答数据表示为<X,y>,则所述的问答数据构成训练样本。
3.根据权利要求2所述的一种排序学习方法,其特征在于,对提取到的文本特征进行归一化处理。
4.根据权利要求2所述的一种排序学习方法,其特征在于,所述问答数据对应的特征至少包括答案中的词频信息、关键词的IDF信息、答案长度中的一种。
5.根据权利要求1所述的一种排序学习方法,其特征在于,所述分类器包括KNN、RF、NN、GBDT中的一种。
6.一种排序学习系统,其特征在于,该学习系统包括:
标记模块,用于获取问答数据并根据众包机制对所述问答数据进行标记;
特征提取模块,用于对标记后的所述问答数据进行文本特征提取,以得到训练样本;
训练模块,用于将所述训练样本作为分类器的输入对分类器进行训练;
分类模块,用于利用训练好的分类器对待分类的问答数据进行分类;
评估模块,利用打分函数将分类后的问答数据所属的类别对应的标签转换为相应的分数;
所述根据众包机制对所述问答数据进行标记,具体包括:
收集n个答案A={A1,...,An},n>2;
构造答案对集合P,P∈{(Ai,Aj)|i,j=1,2,...,n},其中,若(Ai,Aj)∈P,则
标注答案对,如果某个答案对中的答案Ai的质量高于答案Aj的质量,则该答案对标注为1,否则标注为0;
所述打分函数为:其中,其中n表示答案个数,表示答案标签的总和,表示答案t和答案m比较分类后得到的标签。
7.一种计算机可读存储介质,存储计算机程序,其特征在于,所述计算机程序被处理器运行时执行如权利要求1~5任意一项所述的学习方法。
8.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1~5任意一项所述的学习方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆德塔蔓灵科技有限公司,未经重庆德塔蔓灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811522537.9/1.html,转载请声明来源钻瓜专利网。