[发明专利]文本处理方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202110649374.6 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113255327B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 杨韬 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/332 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取待处理文本对应的至少一个词序列,所述待处理文本包括问题文本和对应的至少一个与问题文本相关的段落文本,每一词序列对应于所述问题文本和一个所述段落文本;
将各词序列输入训练好的文本处理模型,通过所述训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于所述特征向量获取各词序列中各词的概率,所述概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;
基于各词序列中各词的所述第一概率和所述第二概率,确定出问题文本的答案;
其中,所述训练好的文本处理模型通过如下方式训练得到:
获取预设数量的第一文本,并选取各第一文本中的特定实体作为答案;
将各第一文本中的实体替换为第二指定字符得到第二文本,并基于所述第二文本从预设段落库中检索得到至少一个段落文本;
利用所述答案对所述段落文本进行标注,得到标注有答案的起始词和终止词的段落文本;
将所述第二文本作为问题文本,并与对应的至少一个标注有答案的起始词和终止词的段落文本构成对应的训练样本;
基于各训练样本对初始的文本处理模型进行训练,得到训练好的文本处理模型。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本对应的至少一个词序列,包括:
将所述问题文本和所述至少一个段落文本分别进行分词处理,得到问题词序列和至少一个段落词序列;
将各段落词序列分别与所述问题词序列进行拼接,得到对应的词序列。
3.根据权利要求2所述的方法,其特征在于,将各段落词序列分别与所述问题词序列进行拼接,得到对应的词序列,包括:
将所述问题词序列拼接在各段落词序列之前,并在所述问题词序列之前、所述问题词序列与所述段落词序列之间以及所述段落词序列之后,添加第一指定字符,得到对应的词序列。
4.根据权利要求1所述的方法,其特征在于,所述基于各训练样本对初始的文本处理模型进行训练,得到训练好的文本处理模型,包括:
获取各训练样本对应的至少一个样本词序列,每一样本词序列对应于所述问题文本和一个所述段落文本;
依次将各训练样本对应的至少一个样本词序列输入初始的文本处理模型,从所述文本处理模型的输出中获取各样本词序列中标注的答案的起始词的目标第一概率、以及终止词的目标第二概率,并基于所述目标第一概率和所述目标第二概率获取各训练样本对应的损失值;
分别基于各训练样本对应的损失值,调整所述文本处理模型的模型参数,当所述损失值满足预设条件时得到所述训练好的文本处理模型。
5.根据权利要求4所述的方法,其特征在于,所述损失值指示各样本词序列对应的各目标第一概率值与各目标第二概率值之和的大小,且所述损失值越小,对应的各目标第一概率值与各目标第二概率值之和也越大;
所述分别基于各训练样本对应的损失值,调整所述文本处理模型的模型参数,当所述损失值满足预设条件时得到所述训练好的文本处理模型,包括:
分别基于各训练样本对应的损失值,调整所述文本处理模型的模型参数,当所述损失值不大于预设值时得到所述训练好的文本处理模型。
6.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量获取各词序列中各词的概率,包括:
基于所述特征向量获取各词序列中各词的分对数Logit值;
基于所述Logit值,通过Softmax函数获取各词序列中各词的概率。
7.根据权利要求1所述的方法,其特征在于,所述基于各词序列中各词的所述第一概率和所述第二概率,确定出所述问题文本的答案,包括:
基于各词序列中各词的所述第一概率和所述第二概率,从各词序列中确定出对应的待选答案;
基于各待选答案的起始词的第一概率和终止词的第二概率,从各待选答案中确定出对应的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649374.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:吊具角度调节方法、吊具调节机构及门座起重机
- 下一篇:锁模机构和注塑机