[发明专利]语句表示方法、表示模型训练方法及装置在审
申请号: | 201910139191.2 | 申请日: | 2019-02-25 |
公开(公告)号: | CN111611789A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 马凯 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 表示 方法 模型 训练 装置 | ||
1.一种语句表示方法,其特征在于,包括:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征;
将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图;
将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果。
2.如权利要求1所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词的设定数量的注意力特征,所述设定数量不小于二;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图的步骤,包括:
将所述待表示语句中的每个词对应的设定数量的注意力特征进行拼接,得到所述待表示语句的设定数量的特征图。
3.如权利要求1所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
Attention(Q、K、V)=softmax(QKT)V;
其中,Q=X·WQ;
K=X·WK;
V=X·WV;
其中,X表示所述待表示语句中的一个词的词向量;WQ、WK、WV表示三个权值矩阵;Attention表示注意力机制;softmax表示归一化指数函数;Q、K、V表示计算过程中的中间值。
4.如权利要求3所述的方法,其特征在于,所述注意力机制配置多组权值矩阵,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征通过以下方式实现:
其中,
其中,表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的中间值;WaK、表示第a组中的三个权值矩阵;Xb表示所述待表示语句中的第b个词的词向量;表示所述待表示语句中的第b个词在第a组权值矩阵下计算得到的注意力特征;
所述将所述待表示语句中的每个词对应的注意力特征进行拼接,得到所述待表示语句的特征图通过以下方式实现:
将计算得到的进行拼接,得到第a组的三个权值矩阵对应计算得到的特征图,其中,N表示所述待表示语句中的词的数量。
5.如权利要求1-4任意一项所述的方法,其特征在于,所述将待表示语句输入注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征的步骤,包括:
将待表示语句输入自注意力机制中进行计算,得到所述待表示语句中的每个词对应的注意力特征。
6.如权利要求1所述的方法,其特征在于,所述卷积模型包括卷积模块和最大池化模块,所述将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果的步骤,包括:
将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据;
将所述卷积输出数据属于最大池化模块进行池化操作,得到表示结果。
7.如权利要求6所述的方法,其特征在于,所述将所述特征图输入卷积模块进行卷积处理,得到卷积输出数据的步骤,包括:
将所述特征图输入d×h的卷积神经网络进行卷积处理,得到卷积输出数据,所述d表示所述待表示语句中的词向量的维度;h表示一设定的数值。
8.如权利要求1所述的方法,其特征在于,在所述将所述特征图输入卷积模型进行处理,得到所述待表示语句的表示结果的步骤之后,所述方法还包括:
将所述表示结果输入分类器中将所述表示结果进行分类,得到所述待表示语句的分类结果;或者,
将所述表示结果使用翻译器进行语义翻译,得到所述待表示语句的翻译结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910139191.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防松螺栓
- 下一篇:一种耐磨损编织袋材料及其制备工艺