[发明专利]一种文本处理方法、装置、电子设备及可读存储介质有效
申请号: | 202010918150.6 | 申请日: | 2020-09-03 |
公开(公告)号: | CN111966792B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 汪硕芃;张聪;范长杰;胡志鹏 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06F16/35 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 张芮 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 电子设备 可读 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
根据目标时刻之后新增的待处理文本和所述目标时刻之前已存在的历史话题的语义相似度,从所述待处理文本中查找语义相似度小于第一预设数值的目标文本;
根据所述目标文本的句向量,对所述目标文本进行聚类,得到多个文本聚类结果;
针对每个文本聚类结果,根据属于该文本聚类结果的目标文本,确定该文本聚类结果的目标话题;
根据所述目标话题与所述历史话题的语义相似度,生成关于所述历史话题的拓展关系图;所述拓展关系图中包含所述目标话题、所述历史话题以及所述目标话题与所述历史话题的层级关系;所述层级关系是以所述历史话题所在的层级为标准,所述目标话题相对于所述历史话题的隶属关系;所述目标话题相对于所述历史话题的隶属关系是基于所述目标话题与所述历史话题的语义相似度确定的。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述目标话题与所述历史话题的语义相似度,生成关于所述历史话题的拓展关系图,包括:
根据所述目标话题与所述历史话题的语义相似度,确定所述目标话题与所述历史话题的层级关系;
根据所述目标话题与所述历史话题的层级关系,生成关于所述历史话题的拓展关系图。
3.根据权利要求1所述的文本处理方法,其特征在于,所述针对每个文本聚类结果,根据属于该文本聚类结果的目标文本,确定该文本聚类结果的目标话题,包括:
针对每个文本聚类结果,根据属于每个文本聚类结果的目标文本的数量,确定目标文本聚类结果;所述目标文本聚类结果是所述文本聚类结果中目标文本数量超过第二预设数值的文本聚类结果;
针对每个目标文本聚类结果,根据属于该目标文本聚类结果的目标文本,确定该目标文本聚类结果的目标话题。
4.根据权利要求1所述的文本处理方法,其特征在于,所述针对每个文本聚类结果,根据属于该文本聚类结果的目标文本,确定该文本聚类结果的目标话题,包括:
针对每个文本聚类结果,将该文本聚类结果中的每个目标文本均输入至已训练完成的话题提取模型中,得到该文本聚类结果的目标话题。
5.根据权利要求4所述的文本处理方法,其特征在于,所述已训练完成的话题提取模型是根据以下步骤训练得到的:
获取训练样本;所述训练样本中包括文本集和所述文本集对应的话题;所述文本集中任意两个文本之间的语义相似度均大于第三预设数值;
将所述训练样本输入至未训练完成的话题提取模型中,以对所述未训练完成的话题提取模型进行训练。
6.根据权利要求5所述的文本处理方法,其特征在于,所述未训练完成的话题提取模型包括未训练完成的语言模型和未训练完成的序列标注模型;
所述将所述训练样本输入至未训练完成的话题提取模型中,以对所述未训练完成的话题提取模型进行训练,包括:
将所述训练样本中的文本集输入至所述未训练完成的语言模型中,以对所述未训练完成的语言模型的句向量表达参数进行训练,得到训练好的句向量表达参数;
将所述未训练完成的语言模型输出的句向量和生成所述句向量的文本集对应的话题输入至未训练完成的序列标注模型中,以对所述未训练完成的序列标注模型的话题表达参数进行训练,得到训练好的话题表达参数。
7.根据权利要求1所述的文本处理方法,其特征在于,所述待处理文本是利用爬虫技术抓取的文本。
8.根据权利要求1所述的文本处理方法,其特征在于,所述历史话题是根据所述目标时刻之前已存在的文本确定的话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010918150.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种能够控制转向的打夯机
- 下一篇:一种圆柱滚子的尺寸检测机构