[发明专利]文本处理方法、装置、设备和存储介质在审
申请号: | 202010437018.3 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111814451A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 薄琳;吴诗晨;杨晓庆 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06F40/247;G06F16/332;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 丁君军 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
本公开涉及一种文本处理方法、装置、设备和存储介质。在此描述的方法包括通过对源文本进行句子转换来生成与源文本相对应的第一组复述文本,其中源文本包括句子或者句子的一部分。方法还包括通过机器学习生成模型生成与源文本相对应的第二组复述文本。此外,方法还包括至少基于第一组复述文本和第二组复述文本来获得与源文本相对应的一组目标文本。在本公开的实施例中,同时使用基于规则的句子转换和基于机器学习模型的文本复述,来生成作为对源文本的复述的目标文本。因此,根据本公开的实施例,不仅能够保证文本复述的多样性,而且能够保证文本复述的质量。
技术领域
本公开总体上涉及计算机领域,更特别地涉及一种文本处理方法、装置、设备和计算机可读存储介质。
背景技术
文本生成是自然语言处理(NLP)技术中的一个重要分支,其能够根据输入数据自动生成自然语言文本。文本生成是自然语言理解的高级阶段,是实现智能文本处理的重要手段。文本生成技术可以应用于机器翻译、对话系统、文本摘要、文章写作、文本复述、图像加注,等等。
文本复述(paraphrase)作为文本生成技术中的一种,能够以一种或多种不同的方式表达源文本,而不改变源文本的语义,或者所表达的思想与源文本基本一致,也称为“改写”。文本复述技术应用很广泛,例如,在机器翻译系统中,可以利用文本复述技术对复杂输入文本进行简化,在信息检索系统中,利用文本复述技术对用户查询进行改写,等等。
发明内容
根据本公开的一些实施例,提供了一种文本处理方法、装置、设备以及计算机可读存储介质。
在本公开的第一方面,提供了一种文本处理方法。方法包括通过对源文本进行句子转换来生成与源文本相对应的第一组复述文本,其中源文本包括句子或者句子的一部分。方法还包括通过机器学习生成模型生成与源文本相对应的第二组复述文本。此外,方法还包括至少基于第一组复述文本和第二组复述文本来获得与源文本相对应的一组目标文本。
在本公开的第二方面,提供了一种文本处理装置。装置包括第一文本生成模块、第二文本生成模块以及目标文本获得模块。第一文本生成模块被配置为通过对源文本进行句子转换,来生成与源文本相对应的第一组复述文本,其中源文本包括句子或者句子的一部分。第二文本生成模块被配置为通过机器学习生成模型生成与源文本相对应的第二组复述文本。目标文本获得模块被配置为至少基于第一组复述文本和第二组复述文本,获得与源文本相对应的一组目标文本。
在本公开的第三方面,提供了一种电子设备,包括存储器和处理器,其中存储器用于存储计算机可执行指令,计算机可执行指令被处理器执行以实现根据本公开的第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行实现根据本公开的第一方面和的方法。
在本公开的实施例中,同时使用基于规则的句子转换和基于机器学习模型的文本复述,来生成作为对源文本的复述的目标文本。因此,根据本公开的实施例,不仅能够保证文本复述的多样性,而且能够保证文本复述的质量。
附图说明
结合附图并参考以下详细说明,本公开各实现方式的特征、优点及其他方面将变得更加明显。在此以示例性而非限制性的方式示出了本公开的若干实现方式,在附图中:
图1示出了根据本公开的实施例的语料扩充的示例环境;
图2示出了根据本公开的实施例的文本处理方法的流程图;
图3示出了根据本公开的实施例的文本复述系统的架构的示意图;
图4示出了根据本公开的实施例的用于检索相似句子的方法的流程图;
图5A示出了根据本公开的实施例的句子转换过程的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010437018.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型头戴帽
- 下一篇:一种基于联合信息采集的5G医疗机器人通信方法