[发明专利]相似文本去重方法、装置、存储介质及电子装置在审

专利信息
申请号: 202211698954.5 申请日: 2022-12-28
公开(公告)号: CN115982144A 公开(公告)日: 2023-04-18
发明(设计)人: 杨梦诗;刘升平;梁家恩 申请(专利权)人: 云知声智能科技股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F40/30;G06F40/289;G06F40/216;G06F16/35;G06F18/22;G06N3/0455
代理公司: 暂无信息 代理人: 暂无信息
地址: 100096 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 相似 文本 方法 装置 存储 介质 电子
【说明书】:

发明公开了一种相似文本去重方法、装置、存储介质及电子装置。其中,该相似文本去重方法包括:通过获取待处理文本;将待处理文本输入预训练语义模型,输出结合待处理文本的上下文和词位置信息的文本表征矩阵;以文本表征矩阵为输入,利用聚类算法进行相似文本去重处理,得到处理后的目标文本,即本发明语义模型经过海量文本的预训练,能结合上下文和词的位置,精确捕捉广泛且复杂的语义信息,进而解决了现有技术中,相似文本去重精度较低的技术问题。

技术领域

本发明涉及自然语言处理领域,具体而言,涉及一种相似文本去重方法、装置、存储介质及电子装置。

背景技术

现有文本去重系统主要由以下步骤构成:文本清洗、文本分词,文本表征(文本指纹),生成候选、计算距离。文本清洗主要是根据需求,对文档中的标点、空白、中英文、简繁体等字符进行清洗和整理,便于准确地分词和文本表征;文本分词使用成熟的工具如jieba将句子分成词语,组成词库或者提取高频关键词用于后续的文本表征;文本表征是利用前一步的词信息进行编码如tf-idf,获得能够表示文本语义信息的向量;然后根据文本指纹之间的相关度生成候选文本对;最后通过计算文本对之间的距离如hamming距离,去除重复文本。

现有技术中涉及的相似文本去重,严重依赖于分词效果,在强专业性领域如医疗很难取得令人满意的效果,且基于词或片段的文本指纹不足以捕捉复杂的语义特征如上下文和词序信息,从而给相似度计算带来误差,相似文本去重精度较低。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种相似文本去重方法、装置、存储介质及电子装置,以至少解决现有技术中,相似文本去重精度较低的技术问题。

根据本发明实施例的一个方面,提供了一种相似文本去重方法,包括:获取待处理文本;将所述待处理文本输入预训练语义模型,输出结合所述待处理文本的上下文和词位置信息的文本表征矩阵;以所述文本表征矩阵为输入,利用聚类算法进行相似文本去重处理,得到处理后的目标文本。

可选的,所述将所述文本表征矩阵为输入,利用聚类算法进行相似文本去重处理,得到处理后的目标文本,包括:将所述文本表征矩阵输入所述聚类算法,生成多个语义相似的簇;根据每个簇的文本向量距离中心向量之间的距离,从所述多个语音相似的簇中的每个簇取一个代表性样本,得到所述目标文本。

可选的,所述将所述待处理文本输入预训练语义模型,输出结合所述待处理文本的上下文和词位置信息的文本表征矩阵,包括:在所述待处理文本首尾分别新增[cls]和[seq],得到新增文本;对所述新增文本进行分词处理,得到分词token总数为l的分词集合;将所述分词集合输入所述预设训练语义模型,得到所述分词集合中每个分词在所述预设训练语义模型词表中对应的标识id,生成l维度的第一向量,所述文本表征矩阵由不同文本的表征向量组成,文本表征向量是由所述第一向量、第二向量和第三向量计算得来的。

可选的,所述第一向量Xinput_id表示如下:χinput_id=(x[cls],x[1],x[2],...,x[l-2],x[seq])

其中,x[cls],x[seq]分别代表所述[cls]和所述[seq]所述预训练模型词表中的id,x[i]代表所述新增文本中第i个token在所述预训练模型词表中的id,1≤i≤l-2。

可选的,所述第二向量χsegment_id默认所有token都为0,即为l维值为0的向量:χsegment_id=(0,0,...,0);

所述第三向量χattention_mask默认所有token都为1,即为l维值为1的向量:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211698954.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top