[发明专利]用于训练模型与输出信息的方法、装置、设备及存储介质在审
申请号: | 202010615558.6 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111783427A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 宗天琪;刘继辉 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 模型 输出 信息 方法 装置 设备 存储 介质 | ||
1.一种用于训练模型的方法,包括:
获取第一训练样本集合,所述第一训练样本集合包括训练集和测试集;
利用所述训练集训练初始文本识别模型,得到中间文本识别模型;
利用所述测试集测试所述中间文本识别模型,得到测试结果;
根据所述测试结果以及预设筛选条件,从所述测试集中筛选出第二训练样本集合;
利用所述第二训练样本集合训练所述中间文本识别模型,得到目标文本识别模型。
2.根据权利要求1所述的方法,其中,所述训练样本包括正向文本和负向文本;以及
所述利用所述训练集训练初始文本识别模型,得到中间文本识别模型,包括:
分别对至少一条所述正向文本和至少一条所述负向文本进行依存句法分析,确定每条正向文本对应的主干词集合以及每条负向文本对应的主干词集合;
利用所述正向文本对应的主干词集合以及所述负向文本对应的主干词集合训练所述初始文本识别模型,得到中间文本识别模型。
3.根据权利要求2所述的方法,其中,所述中间文本识别模型包括不同的状态,在满足状态转移条件时,文本的状态转移,所述不同的状态包括开始状态、中间状态、至少一个终止状态以及与各终止状态对应的识别结果,所述状态转移条件包括文本包括目标词语且各目标词语间的距离小于预设距离范围;以及
所述利用所述测试集测试所述中间文本识别模型,得到测试结果,包括:
对每个测试文本进行依存句法分析,确定各测试文本对应的主干词集合;
根据各测试文本,确定各主干词集合中各主干词之间的距离;
根据所述主干词集合、各主干词之间的距离以及状态转移条件,确定所述测试文本的终止状态;
根据所述终止状态对应的识别结果,确定所述测试文本的测试结果。
4.根据权利要求3所述的方法,其中,所述根据所述测试结果以及预设筛选条件,从所述测试集中筛选出第二训练样本集合,包括:
根据所述测试结果以及所述预设筛选条件,调整所述中间文本识别模型的参数;
根据调整后的参数以及所述预设筛选条件,从所述测试集中筛选出第二训练样本集合。
5.根据权利要求4所述的方法,其中,所述中间文本识别模型的参数包括距离范围值,所述预设筛选条件包括测试文本对应的筛选函数值大于预设值;以及
所述根据所述测试结果以及所述预设筛选条件,调整所述中间文本识别模型的参数,包括:
确定所述测试结果中正向文本的第一数量以及负向文本的第二数量;
确定所述测试集中正向文本的第三数量以及负向文本的第四数量;
根据所述第一数量、所述第二数量、所述第三数量以及所述第四数量、每个测试文本的主干词之间的距离以及所述距离范围值,确定每个测试文本对应的筛选函数值;
根据各筛选函数值,调整所述距离范围值。
6.根据权利要求5所述的方法,其中,所述根据各筛选函数值,调整所述距离范围值,包括:
根据大于所述预设值的筛选函数值的数量,调整所述距离范围值。
7.根据权利要求5所述的方法,其中,所述根据调整后的参数以及所述筛选条件,从所述测试集中筛选出第二训练样本集合,包括:
根据调整后的参数,将对应的筛选函数值大于预设值的测试文本加入所述第二训练样本集合。
8.一种用于输出信息的方法,包括:
获取目标文本;
对所述目标文本进行依存句法分析,确定所述目标文本中包括的主干词集合;
根据所述主干词集合与如权利要求1所述的目标文本识别模型,确定所述目标文本是否为负向文本;
响应于确定所述目标文本为负向文本,生成输出信息;
将所述输出信息输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010615558.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:近地无线网络部署方法及装置
- 下一篇:语音识别方法及装置