[发明专利]一种基于预训练语言模型的长文本聚类方法及装置在审

专利信息
申请号: 202011093000.2 申请日: 2020-10-13
公开(公告)号: CN112836043A 公开(公告)日: 2021-05-25
发明(设计)人: 张震;石瑾;李鹏;王玉杰;张浩宇;贾国庆;吴飞 申请(专利权)人: 讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 230088 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 训练 语言 模型 文本 方法 装置
【说明书】:

发明公开了一种基于预训练语言模型的长文本聚类方法及装置,该方法包括:步骤SS1:使用文本摘要模型将长文本压缩为短文本;步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时,采用迁移学习,将大规模预训练模型应用到文本聚类中。

技术领域

本发明涉及一种基于预训练语言模型的长文本聚类方法及装置, 属于自然资源处理应用技术领域,具体涉及信息抽取、深度神经网络、 语言模型以及文本聚类的应用场景。

背景技术

文本聚类功能通过对大量的输入文本进行聚类分析将具有高度 相似性的文档划分到相同的类别。同类的文档相似度较大,而类别不 同的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不 需要训练过程,不需要预先对文档手工标注类别,因此具有一定的灵 活性和较高的自动化处理能力。

随着信息化进程的不断推荐,日益增长的文本信息给人们带来巨大的 困扰;信息处理技术可以有效帮助从海量数据挖掘有效的信息;文本 类别划分是信息处理技术最基本的方法;文本类别划分主要目前主要 包括有监督文本分类和无监督或者半监督的文本聚类方法;有监督的 文本分类方法通过预定义好类别标签,通过对文本数据组织人工标注构建专有的或者面向领域的文本;预定义类别标签一旦确定很难更改, 因此,基于监督文本分类方法极大的限制了文本类别划分的拓展;基 于半监督或者无监督的文本聚类方法,可以解决文本类别划分的问题, 在文本类别划分方面得到了广泛的应用,例如:基于single_pass的新 闻聚类方法,作为面向长文本的表达,聚类中心的便宜,忽略上下文 的语义信息,基于LDA的主题文本聚类方法。这些方法也存在一些 不足,目前的文本向量特这个主要存在几个问题:基于词袋模型的向 量表达对于长文本的特征表达效果较差,基于词频统计的TFIDF的 向量表达以及基于主题的LDA的向量表达均忽略了词语的上下文语 义关联信息。另外,在聚类过程中,随着文本数据增加,簇心的偏移, 会导致文本的之间相似性差异较大。

发明内容

现有技术的缺点如下三点。(1)现有聚类方法采用基于文本的特 征向量计算文本间相似距离,主要包括最小距离、最大距离、平均距 离、中间距离法、重心法、离差平方法和法等句子距离计算方法。构 建文本特征向量表达通常采用基于词频的TF-IDF方法构建文本向量, 通过计算文本向量之间的相对距离来计算文本之间的相似程度。根据 句子之间的相似程度来计算句子簇的划分。TF-IDF虽然简单快速, 但是单纯以词频衡量一个词的重要性不够全面,词语有时候重要的词 出现的次数不多;另外,基于TF-IDF文本特征,并未考虑文本的上 下文语义信息,文本中词语出现位置对文本的语义表达至关重要。因 此,依据TF-IDF来计算句子间的距离,并以此作为划分句子簇类的 依据并不全面。

(2)长文本降维的问题;随着深度学习的发展,基于文本上下文 的词嵌入模型的构建,使文本的特征表达得到了显著的提升;尤其是 基于self-Attetion的预训练语言模型发展,给文本的特征向量表达, 带来了新的机会。但是,由于self_attention的预训练模型通常是基 于句子级别的向量表达,对长文本的表达无法降维。

(3)簇心飘移的问题。当前文本聚类方法往往需要指定簇的个 数(K-means)或者构建动态类别(Dbscan);指定簇的个数并不能根据 待聚类的文本数量进行动态的调整,在实际应用过程中,需要根据经 验设置簇的个数;动态类别数据随着是簇中数据增加或者异常值的出 现导致簇心的飘移,簇中数据差异很大,就会将原本不属于类中的文 本划分到同一个簇类中,继而在之后的聚类中引发连锁反应,使得聚 类效果变差。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心,未经讯飞智元信息科技有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011093000.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top