[发明专利]文本处理方法、装置、电子设备及存储介质在审
申请号: | 202110451337.4 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113177399A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 浦东旭 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
本申请提供一种文本处理方法、装置、电子设备及存储介质,涉及文本处理领域。该文本处理方法包括:对输入文本进行特征提取,得到所述输入文本的特征;根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本;所述数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。本申请可针对未限定话题的输入文本生成对应的评论文本,并且,可减小生成文本的时间成本。
技术领域
本发明涉及文本处理领域,具体而言,涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)作为计算机科学技术与人工智能领域中的重要方向,可实现人机之间的自然通信。自然语言处理,可将自然语料转换成数字化信息,得到机器可识别的信息。
自然语言处理技术,通常需要神经网络模型的配合。其中,自然语言的生成技术,特别是文本生成,受限于特定的话题。目前,在文本生成技术中,需基于预设话题下的语料库进行训练,得到神经网络结构的文本生成模型。当接收到该预设话题下的输入文本,该文本生成模型便可输出该预设话题下该输入文本对应的输出文本。
也就是说,目前大多的神经网络结构的文本生成模型,需要限定文本的话题,其训练得到模型的准确度才能得到保证,而对于未限定话题的输入文本,该文本生成模型便无法生成对应的输出文本,并且,神经网络模结构的文本生成模型其模型复杂度通常较高,其模型训练和调参时间较长,那么其文本生成模型的时间成本较高。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种文本处理方法、装置、电子设备及存储介质,以生成未限定话题的输入文本的评论文本,减小生成文本的时间成本。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种文本处理方法,包括:
对输入文本进行特征提取,得到所述输入文本的特征;
根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本;所述数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;
根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。
可选的,所述对输入文本进行特征提取,得到所述输入文本的特征,包括:
获取所述输入文本中的多个目标词语;
根据预先构建的语料库,对所述多个目标词语进行映射,得到所述多个目标词语的特征,其中,所述语料库包括:多个基础词语的特征;每个目标词语的特征为所述语料库中与所述每个目标词语匹配的目标基础词语的特征;
根据所述多个目标词语的特征,得到所述输入文本的特征。
可选的,所述根据所述多个目标词语的特征,得到所述输入文本的特征,包括:
采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征。
可选的,所述采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征之前,所述方法还包括:
根据所述每个目标词语匹配的目标基础词语在所述语料库的逆文档频率指数,确定所述每个目标词语的预设权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110451337.4/2.html,转载请声明来源钻瓜专利网。