[发明专利]长文本处理方法、相关设备及可读存储介质有效
申请号: | 202011492809.2 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112527992B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 代旭东;叶忠义;张浩宇;方昕 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F16/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 设备 可读 存储 介质 | ||
1.一种长文本处理方法,其特征在于,所述方法包括:
获取待处理的长文本;
基于预置的文本处理模型的处理类型,将所述长文本分割成多个文本片段,每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度;
针对每个文本片段,利用所述文本处理模型进行处理,得到所述文本片段对应的处理结果;
基于各文本片段对应的处理结果,得到与所述长文本对应的处理结果;
其中,所述待处理的长文本为多个长文本,所述处理类型为从所述多个长文本中抽取预设问题的答案时,与所述文本片段对应的处理结果,包括:
答案位置预测结果,所述答案位置预测结果用于指示所述预设问题的答案在所述文本片段中的起始位置和结尾位置;
每个字符的类别标签预测结果,所述类别标签包括答案起始位置标签、答案中间位置标签、答案结尾位置标签、非答案位置标签和单个字答案位置标签;
长文本预测结果,所述长文本预测结果用于表示所述文本片段对应的长文本中是否包含所述预设问题的答案;
则,所述基于各个文本片段对应的处理结果,得到与所述长文本对应的处理结果,包括:
基于每个文本片段对应的所述答案位置预测结果、所述每个字符的类别标签预测结果和所述长文本预测结果,确定所述文本片段对应的答案预测结果;
基于各文本片段对应的答案预测结果,从所述多个长文本中抽取预设问题的答案。
2.根据权利要求1所述的方法,其特征在于,每一处理类型对应的所述文本处理模型是以训练用文本片段为训练样本,以每个训练用文本片段标注的与所述处理类型对应的处理结果为样本标签,对预训练模型进行微调得到的。
3.根据权利要求2所述的方法,其特征在于,每一处理类型对应的所述文本处理模型是采用如下方式进行训练的:
以第一训练用文本片段为训练样本,以第一训练用文本片段标注的与所述处理类型对应的处理结果为样本标签,对教师模型进行训练;
利用训练好的教师模型对所述第一训练用文本片段和第二训练用文本片段进行处理,得到所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果;
以所述第一训练用文本片段和所述第二训练用文本片段为训练样本,以所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果为样本标签,对学生模型进行训练;
将训练好的学生模型作为与所述处理类型对应的文本处理模型;
其中,所述学生模型的参数量小于所述教师模型的参数量。
4.根据权利要求1所述的方法,其特征在于,所述基于预置的文本处理模型的处理类型,将所述长文本分割成多个文本片段,包括:
获取预设的第一参量和第二参量,所述第一参量大于所述第二参量;所述第一参量用于确定将所述长文本分割后每个文本片段的长度,所述第二参量用于确定将所述长文本分割后相邻两个文本片段的间隔长度;
基于所述预置的文本处理模型的处理类型,所述第一参量和所述第二参量,确定每个文本片段的起始位置和结束位置;
基于各个文本片段的起始位置和结束位置,将所述长文本分割成多个文本片段。
5.根据权利要求4所述的方法,其特征在于,所述处理类型为从所述长文本中抽取预设问题的答案,或,对所述长文本进行分类;
则,所述基于所述处理类型,所述第一参量和所述第二参量,确定每个文本片段的起始位置和结束位置,包括:
基于所述第一参量确定滑动窗口的大小,基于所述第二参量确定滑动窗口的步长,所述滑动窗口的大小小于等于所述第一参量,所述滑动窗口的步长小于等于所述第二参量;
通过将所述大小的滑动窗口以所述步长从所述长文本的首个字符滑动至所述长文本的最后一个字符,确定每个文本片段的起始位置和结束位置。
6.根据权利要求5所述的方法,其特征在于,所述待处理的长文本为单个长文本,所述处理类型为从所述单个长文本中抽取预设问题的答案时,与所述文本片段对应的处理结果为:
所述文本片段中每个字符的类别标签预测结果,所述类别标签包括答案起始位置标签、答案中间位置标签、答案结尾位置标签、非答案位置标签和单个字答案位置标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011492809.2/1.html,转载请声明来源钻瓜专利网。