[发明专利]文本类别识别方法、装置、电子设备和存储介质在审
申请号: | 202110849917.9 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113360660A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 马玉昆;卜英桐;程大川 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/211;G06F40/216;G06F40/284;G06F40/289 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 类别 识别 方法 装置 电子设备 存储 介质 | ||
1.一种文本类别识别方法,包括:
将待识别文本进行拆分得到子文本序列,将所述子文本序列中每个子文本进行拆分得到对应的句子序列;
对于每个所述子文本对应的句子序列中的每个句子按照预先训练的特征提取模型进行特征提取得到该句子对应的句子特征向量;
对于所述子文本序列中的每个子文本,执行以下第一计算操作:对于该子文本中的每个句子,基于该子文本对应的句子序列中每个句子对应的句子特征向量,计算该句子相对于该子文本的注意力特征向量;基于每个句子相对于该子文本的注意力特征向量,计算该子文本相对于所述待识别文本的注意力特征向量;
拼接所述子文本序列中子文本相对于所述待识别文本的注意力特征向量,得到所述待识别文本对应的待识别文本特征向量;
将所述待识别文本特征向量输入预先训练的分类模型,得到所述待识别文本属于预设类别文本的概率值。
2.根据权利要求1所述的方法,其中,所述特征提取模型和所述分类模型通过如下训练步骤预先训练得到:
确定初始特征提取模型和初始分类模型;
获取训练样本集合,其中,所述训练样本包括样本文本和用于表征该样本文本是否属于预设类别文本的样本标签;
对于所述训练样本集合中的训练样本,执行以下参数调整操作直到满足预设训练结束条件:对该训练样本中的样本文本进行拆分得到样本子文本序列,将所述样本子文本序列中每个子文本进行拆分得到对应的句子序列;对于所述样本子文本序列中每个样本子文本对应的句子序列中的每个句子按照所述初始特征提取模型进行特征提取得到该句子对应的句子特征向量;对于所述样本子文本序列中的每个样本子文本,执行第二计算操作以得到该样本子文本相对于所述样本文本的注意力特征向量:基于该样本子文本对应的句子序列中每个句子对应的句子特征向量,计算该句子相对于该样本子文本的注意力特征向量;基于每个句子相对于该样本子文本的注意力特征向量,计算该样本子文本相对于所述样本文本的注意力特征向量;拼接所述样本子文本序列中样本子文本相对于该样本文本的注意力特征向量,得到该样本文本对应的样本文本特征向量;将所得到的样本文本特征向量输入所述初始分类模型,得到该样本文本属于所述预设类别文本的概率值;基于所得到的概率值与该训练样本中的样本标签之间的差异,调整所述初始特征提取模型和所述初始分类模型的模型参数;
将训练得到的所述初始特征提取模型和所述初始分类模型确定为预先训练的所述特征提取模型和所述分类模型。
3.根据权利要求2所述的方法,其中,所述特征提取模型包括词向量特征提取模型和句向量特征提取模型;以及
所述对于每个所述子文本对应的句子序列中的每个句子按照预先训练的特征提取模型进行特征提取得到该句子对应的句子特征向量,包括:
对于每个所述子文本对应的句子序列中的每个句子,对该句子对应的分词序列中每个分词按照所述词向量特征提取模型进行特征提取得到对应的词向量,组合该句子对应的分词序列中各分词对应的词向量以形成该句子对应的句子特征矩阵,对该句子对应的句子特征矩阵按照所述句向量特征提取模型进行特征提取得到该句子对应的句子特征向量。
4.根据权利要求3所述的方法,其中,所述词向量特征提取模型包括以下至少一项:长短期记忆网络、翻译模型。
5.根据权利要求3所述的方法,其中,所述句向量特征提取模型包括以下至少一项:卷积神经网络、双向长短期记忆网络。
6.根据权利要求3所述的方法,其中,所述对于所述样本子文本序列中每个样本子文本对应的句子序列中的每个句子按照所述初始特征提取模型进行特征提取得到该句子对应的句子特征向量,包括:
对于所述样本子文本序列中每个样本子文本对应的句子序列中的每个句子,对该句子对应的分词序列中每个分词按照所述词向量特征提取模型进行特征提取得到对应的词向量,组合该句子对应的分词序列中各分词对应的词向量以形成该句子对应的句子特征矩阵,对该句子对应的句子特征矩阵按照所述句向量特征提取模型进行特征提取得到该句子对应的句子特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110849917.9/1.html,转载请声明来源钻瓜专利网。