[发明专利]文本处理方法、装置、电子设备及存储介质在审
申请号: | 202110451337.4 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113177399A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 浦东旭 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 电子设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
对输入文本进行特征提取,得到所述输入文本的特征;
根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本;所述数据库中存储有:多条真实文本的特征,以及每条真实文本对应的评论文本的特征;
根据所述输入文本的特征和所述n条真实文本对应的评论文本的特征,从所述n条真实文本对应的评论文本中,选择m条评论文本作为目标评论文本;其中,n为大于或等于1的整数,m为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述对输入文本进行特征提取,得到所述输入文本的特征,包括:
获取所述输入文本中的多个目标词语;
根据预先构建的语料库,对所述多个目标词语进行映射,得到所述多个目标词语的特征,其中,所述语料库包括:多个基础词语的特征;每个目标词语的特征为所述语料库中与所述每个目标词语匹配的目标基础词语的特征;
根据所述多个目标词语的特征,得到所述输入文本的特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个目标词语的特征,得到所述输入文本的特征,包括:
采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征。
4.根据权利要求3所述的方法,其特征在于,所述采用所述多个目标词语的预设权重,对所述多个目标词语的特征进行加权和运算,得到所述输入文本的特征之前,所述方法还包括:
根据所述每个目标词语匹配的目标基础词语在所述语料库的逆文档频率指数,确定所述每个目标词语的预设权重。
5.根据权利要求4所述的方法,其特征在于,所述语料库中的所述多个基础词语来源于多个文档;所述确定所述每个目标词语匹配的目标基础词语在所述语料库的逆文档频率指数为所述每个目标词语的预设权重之前,所述方法还包括:
根据每个基础词语在所述语料库中的词频、所述多个文档中具有所述每个基础词语的文档总数量以及预设的比例因子,计算所述每个基础词语的逆文档频率指数。
6.根据权利要求2所述的方法,其特征在于,所述获取所述输入文本中的多个词语,包括:
对所述输入文本进行分词,得到多个初始词语;
对所述多个初始词语进行处理,以剔除所述多个初始词语中的停用词和/或固定组合词,得到所述多个目标词语。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述语料库中不存在所述每个目标词语匹配的目标基础词语,则确定所述输入文本为无语义的输入文本;
从预设的评论文本库中随机选择评论文本作为目标评论文本。
8.根据权利要求2所述的方法,其特征在于,所述根据预先构建的语料库,对所述多个目标词语进行映射,得到所述多个目标词语的特征之前,所述方法还包括:
采用预设的词向量模型,对预设数据源中的多个文档进行处理,得到所述多个基础词语的特征。
9.根据权利要求1所述的方法,其特征在于,所述根据所述输入文本的特征,从预先创建的数据库中,选择所述输入文本对应的n条真实文本之前,所述方法还包括:
从预设网络平台爬取社交文本内容;
对所述社交文本内容中所述多条真实文本进行特征提取,得到所述多条真实文本的特征;
对所述社交文本内容中的所述每条真实文本对应的评论文本进行特征提取,得到所述每条真实文本对应的评论文本的特征。
10.根据权利要求1所述的方法,其特征在于,所述根据所述输入文本的特征,从预先创建的数据库中,选择n条真实文本,包括:
根据所述输入文本的特征,从所述数据库中,选择与所述输入文本的特征最相关的所述n条真实文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110451337.4/1.html,转载请声明来源钻瓜专利网。