[发明专利]相似文本去重方法、装置、存储介质及电子装置在审
申请号: | 202211698954.5 | 申请日: | 2022-12-28 |
公开(公告)号: | CN115982144A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨梦诗;刘升平;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F40/30;G06F40/289;G06F40/216;G06F16/35;G06F18/22;G06N3/0455 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 文本 方法 装置 存储 介质 电子 | ||
1.一种相似文本去重方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入预训练语义模型,输出结合所述待处理文本的上下文和词位置信息的文本表征矩阵;
以所述文本表征矩阵为输入,利用聚类算法进行相似文本去重处理,得到处理后的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述文本表征矩阵为输入,利用聚类算法进行相似文本去重处理,得到处理后的目标文本,包括:
将所述文本表征矩阵输入所述聚类算法,生成多个语义相似的簇;
根据每个簇的文本向量距离中心向量之间的距离,从所述多个语音相似的簇中的每个簇取一个代表性样本,得到所述目标文本。
3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入预训练语义模型,输出结合所述待处理文本的上下文和词位置信息的文本表征矩阵,包括:
针对单条文本,在所述待处理文本首尾分别新增[cls]和[seq],得到新增文本;
对所述新增文本进行分词处理,得到分词token总数为l的分词集合;
将所述分词集合输入所述预设训练语义模型,得到所述分词集合中每个分词在所述预设训练语义模型词表中对应的标识id,生成l维度的第一向量,所述文本表征矩阵由不同文本的表征向量组成,文本表征向量是由所述第一向量、第二向量和第三向量计算得来的。
4.根据权利要求3所述的方法,其特征在于,所述第一向量Xinput_id表示如下:
χinput_id=(x[cls],x[1],x[2],...,x[l-2],x[seq])
x[cls],x[seq]分别代表所述[cls]和所述[seq]在所述预训练模型词表中的id,x[i]代表所述新增文本中第i个token在所述预训练模型词表中的id,1≤i≤l-2。
5.根据权利要求3所述的方法,其特征在于,所述第二向量和所述第三向量表示如下内容,
所述第二向量χsegment_id默认所有token都为0,即为l维值为0的向量:χsegment_id=(0,0,...,0)
所述第三向量χattention_mask默认所有token都为1,即为l维值为1的向量:χattention_mask=(1,1,...,1)。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所述新增文本并行处理,得到并行处理的bs条文本;
将所述bs条文本输入所述预设训练语义模型中,生成所述bs条文本的第一矩阵、第二矩阵以及第三矩阵,其中,所述第一矩阵、所述第二矩阵以及所述第三矩阵分别由第一向量、第二向量、第三向量作为行向量组成的,维度均为(bs,lmax),所述文本特征矩阵是由所述第一矩阵、第二矩阵以及第三矩阵计算得到的,lmax为bs条文本中最大的值,每条文本的χ向量组成X矩阵的行向量,维度不足lmax的χ向量末尾用0补齐,公式表示如下:
其中,k∈{input_id,attention_mask,segment_id},表示该批次中第i条文本的χk向量,1≤i≤bs。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211698954.5/1.html,转载请声明来源钻瓜专利网。