[发明专利]长文本处理方法、相关设备及可读存储介质有效
申请号: | 202011492809.2 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112527992B | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 代旭东;叶忠义;张浩宇;方昕 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F16/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 设备 可读 存储 介质 | ||
本申请公开了一种长文本处理方法、相关设备及可读存储介质,对于长度大于预设长度的长文本,可以基于预置的文本处理模型的处理类型,将该长文本分割成多个文本片段,每个文本片段的长度不超过该文本处理模型所能处理最大文本的长度,然后针对文本片段,利用该文本处理模型进行处理,得到该文本片段对应的处理结果,最后基于各个文本片段对应的处理结果,即可得到与该长文本对应的处理结果。上述方案中,通过基于文本处理模型所能处理最大文本的长度,将长文本的处理转化为对多个短文本的处理,基于多个短文本的处理结果得到长文本的处理结果的方式,从而实现了基于文本处理模型对长文本的处理。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种长文本处理方法、相关设备及可读存储介质。
背景技术
在很多场景(如,人机对话场景、机器阅读理解场景、文本分类场景等)中需要对文本进行处理。目前,多使用训练好的预训练模型,构造序列标注、文本分类、阅读理解等下游任务模型,以预训练模型参数为基础,在下游任务标注数据上进行微调,实现不同场景下的文本处理模型,以对文本进行处理。
但是,目前,预训练模型一般Transformer结构,其单次处理的文本长度不超过预设长度,比如,12层或24层的Transformer结构,其单次处理的文本长度不超过512字,因此,基于目前的文本处理模型结构无法对长文本(文本长度大于预设长度的文本)进行处理。
因此,如何基于目前的文本处理模型结构实现对长文本的处理,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种长文本处理方法、相关设备及可读存储介质。具体方案如下:
一种长文本处理方法,所述方法包括:
获取待处理的长文本;
基于预置的文本处理模型的处理类型,将所述长文本分割成多个文本片段,每个文本片段的长度不超过所述文本处理模型所能处理最大文本的长度;
针对每个文本片段,利用所述文本处理模型进行处理,得到所述文本片段对应的处理结果;
基于各文本片段对应的处理结果,得到与所述长文本对应的处理结果。
可选地,每一处理类型对应的所述文本处理模型是以训练用文本片段为训练样本,以每个训练用文本片段标注的与所述处理类型对应的处理结果为样本标签,对预训练模型进行微调得到的。
可选地,每一处理类型对应的所述文本处理模型是采用如下方式进行训练的:
以第一训练用文本片段为训练样本,以第一训练用文本片段标注的与所述处理类型对应的处理结果为样本标签,对教师模型进行训练;
利用训练好的教师模型对所述第一训练用文本片段和第二训练用文本片段进行处理,得到所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果;
以所述第一训练用文本片段和所述第二训练用文本片段为训练样本,以所述第一训练用文本片段的处理结果和所述第二训练用文本片段的处理结果为样本标签,对学生模型进行训练;
将训练好的学生模型作为与所述处理类型对应的文本处理模型;
其中,所述学生模型的参数量小于所述教师模型的参数量。
可选地,所述基于预置的文本处理模型的处理类型,将所述长文本分割成多个文本片段,包括:
获取预设的第一参量和第二参量,所述第一参量大于所述第二参量;所述第一参量用于确定将所述长文本分割后每个文本片段的长度,所述第二参量用于确定将所述长文本分割后相邻两个文本片段的间隔长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011492809.2/2.html,转载请声明来源钻瓜专利网。