[发明专利]一种无需标注数据的文本分类方法在审
申请号: | 202211218641.5 | 申请日: | 2022-10-06 |
公开(公告)号: | CN115630642A | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 蒋哲峰;曹肖攀;花榕励;陈先磊 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F18/241 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 张鹏 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无需 标注 数据 文本 分类 方法 | ||
1.一种无需标注数据的文本分类方法,其特征在于:包括有如下步骤:
S1.关键词抽取:将已知的文本类别名称作为类别关键词,将这些关键词以tf-idf的形式设置为最大的值添加到jieba分词工具的tf-idf词典中,保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时,优先得到每条文本类别关键词,再得到其他关键词,共同组成每条文本的关键词列表;
S2.生成关键词和所在相关文本关系对:将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系,即多个关系对,每一个关系对形如(关键词,相关文本),做为模型输入源;
S3.文本编码表示:将步骤S2中得到的输入源中的关键词经过Transformer-Encoder编码器,而对应所在相关文本经过Transformer-Encoder编码器,分别得到关键词和关键词相关文本的语义表示张量;
S4.训练模型:根据已设定好的网络结构和损失函数优化等进行模型训练,训练过程中,以关键词语义表示和相关文本语义表示的相似度为目标,相关的关键词和文本相似度最高,其他不相关的相似度低,直到所有目标都能够收敛稳定,最终通过训练,得到模型;
S5.文本类别预测:将已知的用户提供的文本类别名称全部通过Transformer-Encoder网络编码器做语义表示,新输入文本经过使用了步骤S4中的模型参数的网络结构,搜索最相关的文本类别,最终得到文本类别输出结果。
2.根据权利要求1所述的一种无需标注数据的文本分类方法,其特征在于:所述的步骤S2中,关键词抽取具体方法为:使用tf-idf算法计算每个文本中的词的重要程度,按重要程度排序,选取关键词作为该条文本候选关键词列表;tf为词频,idf为所有文档的逆文档频率,tf-idf则为两项乘积。
3.根据权利要求1所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤3中,生成关键词和所在相关文本关系对具体操作为:假设存在某文本为x,x关键词列表为[key1,key2,key3,...,keyn],则该条文本生成的关系对即为(key1,x)、(key2,x)、(key3,x)...,(keyn,x),每一条文本都和它的关键词进行映射操作,最终得到一系列的关键词-相关文本关系对,来作为编码前的模型输入源。
4.根据权利要求3所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤S3中,所述文本编码表示具体操作为:将关系对中的关键词和相关文本内容经过初始文本嵌入操作,即文本向量化,分别输入两个神经网络编码器,分别为关键词编码器和文本编码器,关键词编码器采用Transformer-Encoder,文本编码器采用Transformer-Encoder网络结构来进行文本编码表示;当关键词嵌入表示和相关文本嵌入表示分别输入编码器前时,其张量维度分别为[batch_size, max_len_key],[batch_size, max_len_text];关键词通过Transformer-Encoder后,张量维度为[batch_size, max_len_key, d_model],文本经过Transformer-Encoder编码器后维度为[batch_size, max_len_text, d_model];然后将关键词输出语义表示的第一个token的张量作为关键词整体的语义表示,取第一个,是为了和文本的语义表示保持一致,此时输出张量的维度为[batch_size, d_model],再将第二个维度,同时除以该维度的2范数,作为最终关键词的语义表示,2范数用以向量归一化;相关文本内容输出语义表示的第一个token的张量作为文本整体的语义表示,此时输出张量的维度为[batch_size, d_model],再将第二个维度,同时除以该维度的2范数,作为最终文本内容的语义表示,2范数用以向量归一化;batch_size为批量文本数量;max_len_key为所设定的关键词输入模型的序列最大长度,max_len_text为所设定的文本输入模型的序列最大长度;d_model为文本特征表示的维度。
5.根据权利要求4所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤S5中,所述文本编码表示具体操作为:通过步骤S4得到的关键词和相关文本的张量维度均为[batch_size,d_model],将关键词语义表示张量不变,相关文本语义表示张量进行转置,则相关文本语义表示维度变为[d_model,batch_size],此时将关键词语义表示张量和相关文本语义表示张量相乘,得到最终张量维度为[batch_size,batch_size]的张量,这个张量的对角线元素即为关键词和对应的文本之间的余弦相似度,而模型优化目标就是使得对角线元素的值为1,其他位置的值0;对角线元素,则是正样本的相似度,非对角线元素,就是所谓负样本的相似度,即是一个关系对的样本就是正样本,非关系对的样本对就是负样本,模型的损失函数使用交叉熵损失函数,通过这样的目标和损失函数,来通过对数据进行模型训练,最终得到模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211218641.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置