[发明专利]文本处理方法、装置、计算机设备和存储介质有效
申请号: | 202010156931.6 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111401032B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/30;G06F16/33 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 董慧 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取包括至少两个文本分词的原始文本;基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到包括至少两个待改写文本分词的精简文本;根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。本方法涉及人工智能技术领域,采用本方案能够提高文本处理过程中的处理效率。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。而自然语言处理(Nature Language processing,NLP)是人工智能技术中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术常常被应用于文章自动摘要、文本自动纠错、机器阅读理解、文本优化等文本处理领域。
在传统的文本处理方案中,通常是将原始文本输入至序列到序列(seq2seq)模型,然后逐词输出一个全新的对应于原始文本的目标文本。可以看出,在对原始文本进行文本处理时,每次都需要生成一个全新的目标文本,这使得文本处理效率不高。
因此,目前的自然语言处理技术在进行文本处理时存在效率不高的问题。
发明内容
基于此,有必要针对目前的自然语言处理技术在进行文本改写时存在效率不高的问题,提供一种能够提高的文本处理效率的文本处理方法、装置、计算机设备和存储介质。
一种文本处理方法,所述方法包括:
获取原始文本;所述原始文本包括至少两个文本分词;
基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
一种文本处理装置,所述装置包括:
获取模块,用于获取原始文本;所述原始文本包括至少两个文本分词;
标注模块,用于基于各个所述文本分词在所述原始文本中的上下文信息,确定各个所述文本分词对应的编辑方式;
过滤模块,用根据各个所述文本分词对应的编辑方式,对所述原始文本进行过滤,得到精简文本;所述精简文本包括至少两个待改写文本分词;
确定模块,用根据各个所述待改写文本分词在所述精简文本中的上下文信息,确定各个所述待改写文本分词对应的目标文本分词;
编辑模块,用于根据各个所述待改写文本分词对应的编辑方式和各个所述待改写文本分词对应的目标文本分词,对所述精简文本进行编辑操作,得到改写后文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010156931.6/2.html,转载请声明来源钻瓜专利网。