[发明专利]一种文本处理方法、装置、电子设备及可读存储介质有效

申请号：	202010918150.6	申请日：	2020-09-03
公开（公告）号：	CN111966792B	公开（公告）日：	2023-07-25
发明（设计）人：	汪硕芃;张聪;范长杰;胡志鹏	申请（专利权）人：	网易(杭州)网络有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/30;G06F16/35
代理公司：	北京超成律师事务所 11646	代理人：	张芮
地址：	310052 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本处理方法装置电子设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本处理方法，其特征在于，包括：

根据目标时刻之后新增的待处理文本和所述目标时刻之前已存在的历史话题的语义相似度，从所述待处理文本中查找语义相似度小于第一预设数值的目标文本；

根据所述目标文本的句向量，对所述目标文本进行聚类，得到多个文本聚类结果；

针对每个文本聚类结果，根据属于该文本聚类结果的目标文本，确定该文本聚类结果的目标话题；

根据所述目标话题与所述历史话题的语义相似度，生成关于所述历史话题的拓展关系图；所述拓展关系图中包含所述目标话题、所述历史话题以及所述目标话题与所述历史话题的层级关系；所述层级关系是以所述历史话题所在的层级为标准，所述目标话题相对于所述历史话题的隶属关系；所述目标话题相对于所述历史话题的隶属关系是基于所述目标话题与所述历史话题的语义相似度确定的。

2.根据权利要求1所述的文本处理方法，其特征在于，所述根据所述目标话题与所述历史话题的语义相似度，生成关于所述历史话题的拓展关系图，包括：

根据所述目标话题与所述历史话题的语义相似度，确定所述目标话题与所述历史话题的层级关系；

根据所述目标话题与所述历史话题的层级关系，生成关于所述历史话题的拓展关系图。

3.根据权利要求1所述的文本处理方法，其特征在于，所述针对每个文本聚类结果，根据属于该文本聚类结果的目标文本，确定该文本聚类结果的目标话题，包括：

针对每个文本聚类结果，根据属于每个文本聚类结果的目标文本的数量，确定目标文本聚类结果；所述目标文本聚类结果是所述文本聚类结果中目标文本数量超过第二预设数值的文本聚类结果；

针对每个目标文本聚类结果，根据属于该目标文本聚类结果的目标文本，确定该目标文本聚类结果的目标话题。

4.根据权利要求1所述的文本处理方法，其特征在于，所述针对每个文本聚类结果，根据属于该文本聚类结果的目标文本，确定该文本聚类结果的目标话题，包括：

针对每个文本聚类结果，将该文本聚类结果中的每个目标文本均输入至已训练完成的话题提取模型中，得到该文本聚类结果的目标话题。

5.根据权利要求4所述的文本处理方法，其特征在于，所述已训练完成的话题提取模型是根据以下步骤训练得到的：

获取训练样本；所述训练样本中包括文本集和所述文本集对应的话题；所述文本集中任意两个文本之间的语义相似度均大于第三预设数值；

将所述训练样本输入至未训练完成的话题提取模型中，以对所述未训练完成的话题提取模型进行训练。

6.根据权利要求5所述的文本处理方法，其特征在于，所述未训练完成的话题提取模型包括未训练完成的语言模型和未训练完成的序列标注模型；