[发明专利]基于排序学习的自动问答装置及方法有效
申请号: | 201510007539.4 | 申请日: | 2015-01-07 |
公开(公告)号: | CN104573000B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 薛锐青 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙)11447 | 代理人: | 南毅宁,桑传标 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 排序 学习 自动 问答 装置 方法 | ||
技术领域
本发明涉及自动问答领域,具体地,涉及一种基于排序学习的自动问答装置及方法。
背景技术
自动问答是一种能够自动回答问题的机制。通用的自动问答机制,首先根据用户查询从问答库中筛选出若干候选问答对,然后计算所述用户查询与每个候选问答对之间的各种特征参数,然后利用这些特征参数、以及每种特征参数的特征权值来得出所述用户查询与各个候选问答对之间的相似度,最后,根据所得出的相似度来对这些候选问答对进行排序。
然而,在现有的自动问答机制中,上面提到的特征权值,一般由开发人员根据经验或先验知识进行设定。一旦增加了某项特征参数,就需要开发人员重新手动调整每项特征参数的特征权值,这就大大增加开发人员的维护工作量,并且不利于特征扩展。另外,随着问答库的更新,可能造成特征分布发生改变,必须调整原有特征权值才能较好的拟合用户意图。如果完全由人工调整完成,则开发人员维护压力大,维护成本高,且实时性不好。
发明内容
本发明的目的是提供一种基于排序学习的自动问答装置及方法,该装置及方法能够利用机器学习方法,自动构建问答排序模型,从而实现特征权值的自动计算。
为了实现上述目的,本发明提供一种基于排序学习的自动问答方法,该方法包括:步骤a:构建问答库,该问答库包括多个预设查询和与每个预设查询一一对应的问答集;步骤b:根据所述问答库中包括的所述预设查询和所述问答集,为每个预设查询构建训练样本,并对所述训练样本进行正负例标注;步骤c:根据每个预设查询的训练样本、以及每个预设查询的训练样本的正负例标注,为每个预设查询构建排序训练数据;步骤d:利用所构建的所有排序训练数据进行排序学习,得出针对所述问答库的问答排序模型;步骤e:接收用户查询,并根据所述用户查询从所述问答库中筛选与所述用户查询有关的候选问答集;以及步骤f:利用所述问答排序模型对所述候选问答集进行排序。
优选地,在所述步骤b中,通过以下方式为每个预设查询构建训练样本,并对所述训练样本进行正负例标注:针对每个预设查询,将该预设查询与和其对应的问答集构建为针对该预设查询的训练样本,并将该训练样本标注为正例;针对每个预设查询,从所述问答库中确定与该预设查询有关的候选问答集,该候选问答集包括与该预设查询相对应的问答集和若干其他问答集,将该预设查询与所述若干其他问答集一一构建为针对该预设查询的训练样本,并将该训练样本标注为负例。
优选地,在所述步骤c中,通过以下方式为每个预设查询构建排序训练数据:针对每个预设查询,确定针对该预设查询的训练样本的特征参数集,并根据所确定出的特征参数集、以及所述训练样本的正负例标注,构建针对该预设查询的排序训练数据。
优选地,所述特征参数集包括相关性特征参数子集和重要性特征参数子集;所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及通过以下方式确定所述特征参数集:针对每个训练样本,分别计算该训练样本中的预设查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
优选地,在所述步骤f中,通过以下方式对所述候选问答集进行排序:确定所述用户查询与筛选出的每个候选问答集之间的特征参数集;将所述特征参数集输入至所述问答排序模型,以利用所述问答排序模型对所述每个候选问答集进行排序。
优选地,所述特征参数集包括相关性特征参数子集和重要性特征参数子集;所述问答库中的每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及通过以下方式确定所述特征参数集:针对每个候选问答集,分别计算所述用户查询与该候选问答集、以及与该候选问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出所述用户查询与该候选问答集的相关性特征参数子集;获取该候选问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出所述用户查询与该候选问答集的重要性特征参数子集;以及将所述相关性特征参数子集和所述重要性特征子集进行组合,得出所述用户查询与该候选问答集的所述特征参数集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510007539.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可收缩步长的多类别集成学习分类方法
- 下一篇:一种压缩文件的解压方法和装置