[发明专利]自然语言处理方法、设备、存储介质及程序产品在审
申请号: | 202111277465.8 | 申请日: | 2021-10-29 |
公开(公告)号: | CN113919325A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 岳文浩;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马明明;臧建明 |
地址: | 266555 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 设备 存储 介质 程序 产品 | ||
本申请实施例提供一种自然语言处理方法、设备、存储介质及程序产品,该方法包括获取目标文本,将所述目标文本输入自然语言处理NLP模型,得到目标处理结果,所述目标处理结果包括各标签及分别对应的概率值,将所述目标文本输入置信度模型,得到所述目标处理结果对应的置信度,所述置信度与所述各标签的概率值的分布相关,根据所述置信度,对所述目标处理结果进行处理。本申请实施例能够不依赖人工,通过专门训练得到置信度模型来确定NLP模型得到的目标处理结果的置信度,该置信度的范围可以是0到1之间的数值,提高了置信度的准确性。
技术领域
本申请实施例涉及机器学习技术领域,尤其涉及一种自然语言处理方法、设备、存储介质及程序产品。
背景技术
随着智能化终端的日益普及,人机语音交互系统的研究已经从科研领域扩展到各种终端制造领域如智能电视、车载导航、智能音箱等。人机交互系统中,能否很好地理解用户表达关系到整个交互过程的成功与失败,因此,自然语言处理(Natural LanguageProcessing,NLP)是智能交互系统研究的一个非常重要的方向。NLP领域包括分类任务、序列标注任务等多个任务,以分类任务为例,NLP模型输入一条目标文本,会输出各类别标签及各类别标签分别对应的0到1之间的概率值,某一类别的概率值仅仅代表了该类别与其他类别之间的剥离程度,不能代表该目标文本属于该类别的置信度得分。不利于实现对目标文本的类别结果的有效利用。
现有技术中,可以通过设定阈值来对目标文本的最终类别结果进行置信度评价。
然而,实现本申请过程中,发明人发现现有技术中至少存在如下问题:上述采用阈值的方式中,置信度仅包括0、1两个数值,准确度低,且阈值的设定完全依赖人工,进一步影响了置信度得分的准确度,即使在有专家支持的情况下,也无法保证较高的准确性。
发明内容
本申请实施例提供一种自然语言处理方法、设备、存储介质及程序产品,以提高置信度得分的准确性。
第一方面,本申请实施例提供一种自然语言处理方法,包括:
获取目标文本;
将所述目标文本输入自然语言处理NLP模型,得到目标处理结果;所述目标处理结果包括各标签及分别对应的概率值;
将所述目标文本输入置信度模型,得到所述目标处理结果对应的置信度;所述置信度与所述各标签的概率值的分布相关;
根据所述置信度,对所述目标处理结果进行处理。
在一种可能的设计中,所述目标处理结果为分类结果或序列标注结果。
在一种可能的设计中,所述根据所述置信度,对所述目标处理结果进行处理,包括:
若所述置信度大于预设阈值,则根据所述目标处理结果输出最终结果。
在一种可能的设计中,所述将所述目标文本输入自然语言处理NLP模型之前,还包括:
通过第一样本集对第一待训练模型进行训练,得到所述NLP模型;
将第二样本集中各第二样本及所述各第二样本分别对应的标注结果输入所述NLP模型,得到处理结果预测值;
根据所述处理结果预测值和所述第二样本集对第二待训练模型进行训练,得到所述置信度模型。
在一种可能的设计中,所述通过第一样本集对所述第一待训练模型进行训练,得到所述NLP模型,包括:
将所述第一样本集中各第一样本及所述各第一样本分别对应的标注结果输入所述第一待训练模型;
通过梯度下降算法,对所述第一待训练模型的参数进行更新,得到所述NLP模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111277465.8/2.html,转载请声明来源钻瓜专利网。