[发明专利]语句分类模型训练方法和装置在审
申请号: | 201910420398.7 | 申请日: | 2019-05-20 |
公开(公告)号: | CN110163281A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 周辉阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/9032;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;何平 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 搜索 语句集合 领域搜索 分类模型 分类模型训练 目标搜索 预设 回复 计算机可读存储介质 方法和装置 计算机设备 候选答案 目标语句 筛选规则 收敛条件 语句输入 语句库 准确率 匹配 申请 查找 答案 筛选 | ||
1.一种语句分类模型训练方法,包括:
获取搜索语句集合,所述搜索语句集合包括多个待回复的搜索语句;
根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合;
将所述候选搜索语句集合输入至原始语句分类模型中,得到关注领域对应的领域搜索语句;
从预设搜索语句库中查找得到与所述领域搜索语句匹配的目标搜索语句;
将所述目标搜索语句对应的候选答案作为所述领域搜索语句对应的领域答案,得到所述关注领域对应的领域问答对,所述领域问答对包括领域搜索语句和对应的领域答案;
将所述领域问答对对应的领域搜索语句输入至所述原始语句分类模型进行训练,直至满足收敛条件,得到目标语句分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取搜索语句集合,所述搜索语句集合包括多个待回复的搜索语句,包括:
获取线上日志采集得到的待搜索内容;
从所述待搜索内容查找得到非支持搜索语句,将所述非支持搜索语句组成搜索语句集合,所述非支持搜索语句包括无明确意图的搜索语句和配置非支持搜索语句中的至少一种语句。
3.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
获取所述配置非支持搜索语句;
将所述配置非支持搜索语句中的常规搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
4.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
将所述搜索语句集合输入至已训练好的语义分类器中,通过所述分类器对各个所述搜索语句的语义进行分类,得到语义非完整搜索语句,将所述语义非完整搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
5.根据权利要求1所述的方法,其特征在于,所述根据预设筛选规则从所述搜索语句集合中筛选得到候选搜索语句集合,包括:
获取待关注实体;
从所述搜索语句集合中获取与所述待关注实体不匹配的搜索语句,将所述不匹配的搜索语句过滤;
将所述搜索语句集合中过滤后得到的搜索语句组成所述候选搜索语句集合。
6.根据权利要求4所述的方法,其特征在于,所述语义分类器的训练步骤包括:
获取训练搜索语句集合,所述训练搜索语句集合包括多个训练搜索语句;
将所述训练搜索语句集合输入至原始语义分类器,通过所述原始语义分类器对各个所述训练搜索语句进行特征提取得到对应的初始训练特征;
所述原始语义分类器通过前向分类器和后向分类器分别对所述初始训练特征进行特征提取,得到对应的中间训练特征集合,所述中间训练特征集合包括所述前向分类器提取得到前向训练特征和所述后向分类器提取得到后向训练特征,所述中间训练特征的特征维度大于所述初始训练特征的特征维度;
所述原始语义分类器根据预设权重向量和所述中间训练特征集合中的所述前向训练特征、所述后向训练特征计算得到语义分类器训练损失值;
根据所述语义分类器训练损失值对所述原始语义分类器进行训练,直至满足分类器收敛条件,得到已训练的语义分类器。
7.根据权利要求1所述的方法,其特征在于,所述从预设搜索语句库中查找得到与所述领域搜索语句匹配的目标搜索语句,包括:
获取预设搜索语句库,所述预设搜索语句库中包括多个候选问答对,所述候选问答对包括候选领域搜索语句和候选答案;
计算所述领域搜索语句和所述候选领域搜索语句之间的候选关联度;
根据所述候选关联度确定所述领域搜索语句匹配的目标搜索语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910420398.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种聚类方法及装置
- 下一篇:基于深度学习的调制方式识别方法