[发明专利]文本标签确定方法、装置、计算机设备和存储介质在审
申请号: | 202110412379.7 | 申请日: | 2021-04-16 |
公开(公告)号: | CN113761188A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 吴焕钦;刘维 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/38;G06F40/117;G06F40/126;G06F40/194;G06F40/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 确定 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本标签确定方法,其特征在于,所述方法包括:
获取拼接文本,所述拼接文本包括已拼接的候选标签以及目标文本;
对所述拼接文本中各单字进行编码,得到与各单字对应的字向量;
利用注意力机制根据所述字向量对各单字进行交互,得到与所述候选标签中各单字对应的特征向量;
根据所述特征向量对所述候选标签中各单字进行序列标注分类,得到所述候选标签中各单字对应的序列标注结果;
根据所述序列标注结果,确定与所述目标文本对应的目标标签。
2.根据权利要求1所述的方法,其特征在于,所述利用注意力机制根据所述字向量对各单字进行交互,得到与所述候选标签中各单字对应的特征向量包括:
利用注意力机制根据所述字向量计算各单字之间的相似度,得到与所述拼接文本对应的相似度矩阵;
对所述相似度矩阵进行归一化,确定各单字之间的相对权重系数;
根据所述相对权重系数和所述字向量进行向量加权,得到与所述候选标签中各单字对应的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征向量对所述候选标签中各单字进行序列标注分类,得到所述候选标签中各单字对应的序列标注结果包括:
获取已训练的标签向量转换矩阵;
根据所述特征向量和所述标签向量转换矩阵,得到与所述候选标签中各单字对应的序列标签向量;
根据所述序列标签向量对所述候选标签中各单字进行序列标注分类,得到所述候选标签中各单字对应的序列标注结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述序列标签向量对所述候选标签中各单字进行序列标注分类,得到所述候选标签中各单字对应的序列标注结果包括:
根据所述序列标签向量对所述候选标签中各单字进行序列标注分类,确定各单字归属于各预设序列标签的类别概率;
根据所述类别概率,得到所述候选标签中各单字对应的序列标注结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述序列标注结果,确定与所述目标文本对应的目标标签包括:
根据所述序列标注结果,确定有效序列标签;
根据所述有效序列标签,从所述候选标签中筛选出与所述目标文本对应的目标标签。
6.根据权利要求1所述的方法,其特征在于,权利要求1-4中任一项中所述候选标签中各单字对应的序列标注结果通过文本标签匹配模型得到;
所述文本标签匹配模型的构建过程包括:
获取初始文本匹配模型以及分类匹配训练数据,所述分类匹配训练数据包括已拼接的分类标签以及与所述分类标签对应的分类匹配文本,所述分类标签携带分类序列标签;
根据所述分类匹配训练数据对所述初始文本匹配模型进行训练,得到初始文本标签匹配模型;
获取标签匹配训练数据,所述标签匹配训练数据包括已拼接的训练标签以及与所述训练标签匹配的标签匹配文本,所述训练标签携带训练序列标签;
根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练,得到已训练的文本标签匹配模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练,得到已训练的文本标签匹配模型包括:
根据所述标签匹配训练数据对所述初始文本标签匹配模型进行训练,得到初步训练文本标签匹配模型;
根据所述分类匹配训练数据以及所述标签匹配训练数据,生成任务联合训练数据;
根据所述任务联合训练数据对所述初步训练文本标签匹配模型进行训练,得到已训练的文本标签匹配模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412379.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关于一步法输液瓶特殊吊环外型结构
- 下一篇:存储器及其操作方法