[发明专利]文本表示方法、装置、设备和存储介质有效

申请号：	201910504977.X	申请日：	2019-06-11
公开（公告）号：	CN110196981B	公开（公告）日：	2023-07-25
发明（设计）人：	牛国成;何伯磊;肖欣延	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F18/213;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048;G06F16/35
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;马晓亚
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本表示方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提出一种文本表示方法、装置、设备和存储介质，其中的方法包括获取目标文本对应的多个词向量；从多个词向量中，获取目标文本的全局特征；根据全局特征生成多个全局信息，每个全局信息与至少一个词向量对应；根据多个词向量以及多个全局信息，获取目标文本的多个局部特征；根据多个局部特征生成目标文本的表示向量。本发明实施例的方法将文本的全局特征融合在局部特征的抽取过程中，因此生成的局部特征对于全局背景的理解会更好。进而，只需要很浅的网络就可以直接对文本进行分类，并取得优异的分类效果，并且无需额外的更深层的网络，以降低学习难度。

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种文本表示方法、装置、设备和存储介质。

背景技术

深度学习用做文本分类最常见的一种方法是将文本表示成一个低维稠密的向量(这个向量被认为蕴含了对分类有用的所有信息)，再使用这个向量进行最后的分类。一种生成文本向量的方法是先用“局部特征抽取器”对文本的局部特征(一个固定大小的窗口区域)进行抽取，以窗口滑动的形式生成一个个局部表示，再使用这些已经生成的局部表示得到最后的文本向量。

这样生成的局部表示由于缺乏全局的视野，很容易造成歧义和理解不深刻，影响最后的分类效果。比如，在“苹果真的很棒，用它来拍照非常好”，“苹果真的很棒，它非常富有营养”这两句话中，同一个苹果一个代表“苹果”公司的产品，一个代表苹果这种水果。在抽取局部特征的时候，“局部特征抽取器”并不能判断出这个“苹果”到底表征的是什么意思。这种歧义性会影响到最后的分类效果。

发明内容

本发明实施例提供一种文本表示方法、装置、设备和存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种文本表示方法，包括：

获取目标文本对应的多个词向量；

从多个所述词向量中，获取所述目标文本的全局特征；

根据所述全局特征生成多个全局信息，每个所述全局信息与至少一个所述词向量对应；

根据多个所述词向量以及多个所述全局信息，获取所述目标文本的多个局部特征；

根据多个所述局部特征生成所述目标文本的表示向量。

在一种实施方式中，从多个所述词向量中，获取所述目标文本的全局特征，包括：

基于第一编码器获取每个所述词向量对应的第一特征表示；

拼接各所述第一特征表示，得到所述全局特征。

在一种实施方式中，从多个所述词向量中，获取所述目标文本的全局特征，包括：