[发明专利]文本分析模型的训练方法及装置、文本分析方法及装置有效
申请号: | 201911031207.4 | 申请日: | 2019-10-28 |
公开(公告)号: | CN110781663B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 陈楠;唐剑波;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/35;G06F16/33;G06F16/332 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分析 模型 训练 方法 装置 | ||
1.一种文本分析模型的训练方法,其特征在于,包括:
获取样本文本、样本问题和答案标签,其中,所述答案标签包括与样本文本、样本问题相对应的答案存在信息以及正确答案;
将所述样本文本和样本问题输入至文本分析模型中进行处理,生成分类单元输出向量和注意力单元输出向量;
基于所述分类单元输出向量确定样本答案存在信息,并将所述样本答案存在信息与答案标签中的答案存在信息进行计算,生成第一损失值;
基于所述注意力单元输出向量确定样本答案,并将所述样本答案与答案标签中的正确答案进行计算,生成第二损失值;
基于所述第一损失值和第二损失值生成第三损失值,并基于所述第三损失值对所述文本分析模型进行迭代训练,直至达到训练停止条件。
2.根据权利要求1所述的文本分析模型的训练方法,其特征在于,在所述获取样本文本、样本问题和答案标签之后,还包括:
将样本文本和样本问题进行分词处理,获得词单元集合;
所述将所述样本文本和样本问题输入至文本分析模型中进行处理,生成分类单元输出向量和注意力单元输出向量, 包括:
将所述词单元集合输入至文本分析模型中进行处理,生成首个词单元的分类单元输出向量和每一个词单元的注意力单元输出向量。
3.根据权利要求2所述的文本分析模型的训练方法,其特征在于,所述将所述词单元集合输入至文本分析模型中进行处理,包括:
将所述词单元集合输入至文本分析模型的注意力单元中进行处理,生成每一个词单元的注意力单元输出向量;
将首个词单元的注意力单元输出向量输入至分类单元中进行处理,生成首个词单元的分类单元输出向量。
4.根据权利要求2所述的文本分析模型的训练方法,其特征在于,所述基于所述分类单元输出向量确定样本答案存在信息,包括:
S11、基于所述首个词单元的分类单元输出向量判断所述样本文本中是否存在所述样本问题的答案,若是,则执行步骤S12,若否,则执行步骤S13;
S12、生成存在答案标签,并将所述存在答案标签作为样本答案存在信息;
S13、生成不存在答案标签,并将所述不存在答案标签作为样本答案存在信息。
5.根据权利要求2所述的文本分析模型的训练方法,其特征在于,所述基于所述注意力单元输出向量确定样本答案,包括:
将每一个所述词单元的注意力单元输出向量进行线性与非线性处理,获得每一个词单元作为样本答案开始位置的概率和作为样本答案结束位置的概率;
基于所述每一个词单元作为样本答案开始位置的概率和作为样本答案结束位置的概率确定样本答案。
6.根据权利要求1所述的文本分析模型的训练方法,其特征在于,所述基于所述第一损失值和第二损失值生成第三损失值,包括:
确定所述第一损失值的权重值和所述第二损失值的权重值;
基于所述第一损失值的权重值以及第二损失值的权重值进行加权求和处理,生成第三损失值。
7.根据权利要求1所述的文本分析模型的训练方法,其特征在于,所述基于所述第三损失值对所述文本分析模型进行迭代训练,直至达到训练停止条件,包括:
S21、判断所述第三损失值是否处于稳定状态,若是,则执行步骤S22,若否,则执行步骤S23;
S22、基于所述第三损失值对所述文本分析模型进行更新;
S23、停止训练。
8.一种文本分析方法,其特征在于,包括:
获取待分析文本和待回答问题;
将所述待分析文本和待回答问题输入至文本分析模型中进行处理,确定答案存在信息并确定所述待回答问题的答案;
其中所述文本分析模型是通过上述权利要求1-7中任意一项所述的训练方法训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911031207.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种逐点互信息的确定方法和相关设备
- 下一篇:文件修复方法及装置