[发明专利]基于语义表征模型的文本分类方法、装置和计算机设备有效
申请号: | 201910886622.1 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110781312B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 邓悦;金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 表征 模型 文本 分类 方法 装置 计算机 设备 | ||
1.一种基于语义表征模型的文本分类方法,其特征在于,包括:
获取输入的原始文本,并对所述原始文本进行预处理,从而得到单词序列,其中所述预处理至少包括句子划分和单词划分;
根据预设的词向量生成方法、第i个单词所属句子在原始文本中的位置与句子切分向量的对应关系、第i个单词在所述单词序列中的位置与位置向量的对应关系,对应获取与所述单词序列中的第i个单词对应的词向量ai、句子切分向量bi和位置向量ci,并根据公式:wi=ai+bi+ci,计算得到第i个单词对应的文本嵌入向量wi,其中词向量ai、句子切分向量bi和位置向量ci具有相同的维度;
生成文本嵌入向量序列{w1,w2,…,wn},其中所述单词序列中共有n个单词;
将所述单词序列输入预设的知识嵌入模型中,从而获取实体嵌入向量序列{e1,e2,…,en},其中en是第n个单词对应的实体嵌入向量;
将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列;其中所述M层词粒度编码器和预设的N层知识粒度编码器顺序连接从而构成语义表征模型,其中M与N均大于等于2;
将所述中间文本嵌入向量序列和所述实体嵌入向量序列输入到所述N层知识粒度编码器中进行计算,从而得到最后一层知识粒度编码器输出的最终文本嵌入向量序列和最终实体嵌入向量序列;
将所述最终文本嵌入向量序列和最终实体嵌入向量序列输入到预设的分类模型中进行处理,得到文本分类结果;
每一层词粒度编码器由一个多头自注意力机制层和一个前馈全连接层顺序连接构成,所述将所述文本嵌入向量序列输入到预设的M层词粒度编码器中进行计算,从而得到最后一层词粒度编码器输出的中间文本嵌入向量序列的步骤,包括:
在第一层词粒度编码器中的多头自注意力机制层中,将所述文本嵌入向量序列分别乘以经过训练的h个第一参数矩阵组,从而得到第一矩阵{Q1,Q2,…,Qh},第二矩阵{K1,K2,…,Kh}和第三矩阵{V1,V2,…,Vh},其中每个第一参数矩阵组均包括三个q×k的第一参数矩阵;
根据公式:计算得到第z个子注意力矩阵,其中z大于等于1且小于等于h;
根据公式:Multihead({w1,w2,...,wn})=Concat(head1,head2,...,headh)W,计算得到多头自注意力矩阵Multihead,其中W为预设的第二参数矩阵,Concat函数指将矩阵按列方向直接拼接;
将所述多头自注意力矩阵输入所述前馈全连接层中,从而得到暂时文本嵌入向量FFN(x),其中所述前馈全连接层中的计算公式为:FFN(x)=gelu(xW1+b1)W2+b2,其中x为所述多头自注意力矩阵,W1、W2为预设的参数矩阵,b1、b2为预设的偏置值;
将所有单词对应的暂时文本嵌入向量组成暂时文本嵌入向量序列,并将所述暂时文本嵌入向量序列输入下一层词粒度编码器中,直至获取最后一层词粒度编码器输出的中间文本嵌入向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910886622.1/1.html,转载请声明来源钻瓜专利网。