[发明专利]文本处理方法、装置、电子设备及可读存储介质在审
申请号: | 201911237688.4 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111008528A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 张文刚 | 申请(专利权)人: | 北京知道智慧信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
地址: | 100000 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 可读 存储 介质 | ||
1.一种文本处理方法,其特征在于,所述方法包括:
将获得的第一文本数据输入与第一指定任务对应的目标分词器;
通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
2.根据权利要求1所述的方法,其特征在于,将获得的第一文本数据输入与第一指定任务对应的目标分词器,包括:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
3.根据权利要求1所述的方法,其特征在于,通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,包括:
根据所述目标分词器的分词策略,对所述第一文本数据进行分词处理,以得到所述第二文本数据,其中,所述分词策略对应的分词处理包括下述方式中的至少一种:
滤除所述文本数据中的指定字符;
将所述文本数据中的语句划分为字或词;
基于预设编码规则对所述文本数据中的字或词编码。
4.根据权利要求1所述的方法,其特征在于,在将获得的第一文本数据输入与指定任务对应的目标分词器之前,所述方法还包括:
获取训练数据集,所述训练数据集包括多个文本数据及与每个文本数据对应的第二指定任务;
通过所述多个文本数据及与每个文本数据对应的第二指定任务,训练语言模型,得到所述第一语言模型。
5.根据权利要求1所述的方法,其特征在于,当所述第一指定任务的内容包括用于根据所述第二文本数据预测下一句语句时,所述处理结果包括与所述第二文本数据中的语句对应的下一句语句;
当所述第一指定任务的内容包括用于对所述第二文本数据进行分类时,所述处理结果包括表征所述第二文本数据的分类结果;
当所述第一指定任务的内容包括判断所述第二文本数据中的语句是否异常时,所述处理结果包括表征所述第二文本数据语句是否异常的结果。
6.根据权利要求1所述的方法,其特征在于,所述语言模型包括基于循环神经网络的语言模型、基于卷积神经网络的语言模型、Transfomer模型、Bert模型中的至少一种。
7.一种文本处理装置,其特征在于,所述装置包括:
输入单元,用于将获得的第一文本数据输入与第一指定任务对应的目标分词器;
预处理单元,用于通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
训练单元,用于根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
模型处理单元,用于基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
8.根据权利要求7所述的装置,其特征在于,所述输入单元还用于:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-6中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道智慧信息技术有限公司,未经北京知道智慧信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911237688.4/1.html,转载请声明来源钻瓜专利网。