[发明专利]文本表征方法、装置及计算机设备在审
申请号: | 202011259325.3 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364666A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 蔡薇;黄帅;尹亚维 | 申请(专利权)人: | 虎博网络技术(上海)有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/289;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 200050 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 表征 方法 装置 计算机 设备 | ||
1.一种文本表征方法,其特征在于,所述方法包括:
接收输入的句子文本;
对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵;
将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵;
将所述第一词向量矩阵与所述词信息背景矩阵进行矩阵拼接,获得第二词向量矩阵,将所述第一字向量矩阵与所述字信息背景矩阵进行矩阵拼接,获得第二字向量矩阵;
将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层;
将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果。
2.根据权利要求1所述的文本表征方法,其特征在于,所述对所述句子文本进行分词操作,获得第一词向量矩阵和第一字向量矩阵的步骤,包括:
将所述句子文本通过分词器以词为单位进行分词,获得所述句子文本的词集合,利用中文预训练所述词集合,获得所述第一词向量矩阵;
将所述句子文本通过分词器以字为单位进行分词,获得所述句子文本的字集合,随机初始化所述字集合,获得所述第一字向量矩阵。
3.根据权利要求1所述的文本表征方法,其特征在于,所述将所述第一词向量矩阵和所述第一字向量矩阵通过注意力机制动态结合,获得词信息背景矩阵和字信息背景矩阵的步骤,包括:
以所述第一字向量矩阵为key向量和value向量,所述第一词向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述词信息背景矩阵,所述词信息背景矩阵以字信息为背景元素;
以所述第一词向量矩阵为key向量和value向量,所述第一字向量矩阵为query向量,利用注意力机制通过预设公式进行计算,获得所述字信息背景矩阵,所述字信息背景矩阵以词信息为背景元素;
其中,所述预设公式为:
Q表示query向量,K表示key向量,V表示value向量,dk表示所述key向量的维度。
4.根据权利要求1所述的文本表征方法,其特征在于,所述将所述第二词向量矩阵和所述第二字向量矩阵进行深层编码,获得词矩阵层和字矩阵层的步骤,包括:
将所述第二词向量矩阵和所述第二字向量矩阵通向双向长短记忆神经网络层进行深层编码,得到所述词矩阵层和所述字矩阵层。
5.根据权利要求1所述的文本表征方法,其特征在于,所述将所述词矩阵层和所述字矩阵层进行矩阵拼接,获得所述句子文本的完整编码层,作为所述句子文本对应的表征结果的步骤之后,包括:
通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别;
根据所述句子文本的离散概率向量构建文本分类任务。
6.根据权利要求5所述的文本表征方法,其特征在于,所述通过Softmax对所述完整编码层进行归一化处理,获得所述句子文本的离散概率向量和模型预测类别的步骤之后,所述方法还包括:
将所述模型预测类别与真实类别进行对比,计算交叉熵损失函数以及所述交叉熵损失函数关于模型变量的导数值;
将所述导数值输入优化器,所述优化器更新模型参数以使所述交叉熵损失函数最小化;
其中,所述交叉熵损失函数为:
у表示所述真实类别中的真实概率分布,表示所述模型预测类别中的预测概率分布,n表示所述文本分类任务的类别个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于虎博网络技术(上海)有限公司,未经虎博网络技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011259325.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小儿解感中药的制备方法
- 下一篇:一种灯条板激光切割机