[发明专利]文本向量表示方法、装置及电子设备在审
申请号: | 202111268351.7 | 申请日: | 2021-10-29 |
公开(公告)号: | CN114117062A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘伟硕 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N5/02;G06F40/289 |
代理公司: | 成都众恒智合专利代理事务所(普通合伙) 51239 | 代理人: | 钟显毅 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 向量 表示 方法 装置 电子设备 | ||
本发明提供了一种文本向量表示方法、装置及电子设备,涉及数据处理技术领域,在对待处理文本进行文本向量表示时,先获取待处理文本中的多个词语;然后根据预先建立的词汇的嵌入向量表示矩阵,获取每个词语对应的嵌入向量;再根据预先获得的知识图谱和基于知识图谱建立的实体表示信息,获取每个词语对应的先验知识向量;进而根据各个词语对应的嵌入向量和先验知识向量,确定待处理文本对应的文本向量表示。这样通过引入根据知识图谱和实体表示信息得到的先验知识向量,增加了文本向量表示的语义信息和常识信息,从而扩展了文本向量的特征空间,降低了语言噪声的影响。
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种文本向量表示方法、装置及电子设备。
背景技术
目前词向量模型主要分为传统的神经网络预训练模型和基于自注意力机制的预训练词向量模型两类,其中传统的神经网络预训练模型包括:FastText、Word2Vec、GLoVe等,基于自注意力机制的预训练词向量模型包括:Transformer、Bert、ERNIE等。
传统的神经网络预训练模型,模型结构较为简单、网络深度较浅,因此学习得到词向量的特征空间有限、词向量表达能力有限。Bert等基于自注意力机制的词向量模型虽然解决了长距离信息衰减的问题,但是容易受到一些语言噪声的影响。
发明内容
本发明的目的在于提供一种文本向量表示方法、装置及电子设备,以增加文本向量表示的语义信息和常识信息,从而扩展文本向量的特征空间,降低语言噪声的影响。
第一方面,本发明实施例提供了一种文本向量表示方法,包括:
获取待处理文本中的多个词语;
根据预先建立的词汇的嵌入向量表示矩阵,获取每个所述词语对应的嵌入向量;
根据预先获得的知识图谱和基于所述知识图谱建立的实体表示信息,获取每个所述词语对应的先验知识向量;其中,所述实体表示信息包括所述知识图谱中的每个实体对应的向量表示和实体间的关系对应的关系因子;
根据各个所述词语对应的嵌入向量和先验知识向量,确定所述待处理文本对应的文本向量表示。
进一步地,所述待处理文本为中文文本,所述获取待处理文本中的多个词语的步骤,包括:
对所述待处理文本进行分词处理,得到多个词语。
进一步地,所述根据预先建立的词汇的嵌入向量表示矩阵,获取每个所述词语对应的嵌入向量的步骤,包括:
从所述嵌入向量表示矩阵中,取出与每个所述词语对应的嵌入向量。
进一步地,所述根据预先获得的知识图谱和基于所述知识图谱建立的实体表示信息,获取每个所述词语对应的先验知识向量的步骤,包括:
对于每个所述词语,将该词语作为一个实体,在所述知识图谱中查询与其直接关联的所有关联实体;
根据所述实体表示信息和所述所有关联实体,确定该词语对应的先验知识向量。
进一步地,所述将该词语作为一个实体,在所述知识图谱中查询与其直接关联的所有关联实体的步骤,包括:
在所述知识图谱中查询是否存在与该词语对应的目标实体;
当存在时,将与所述目标实体直接关联的每个实体确定为该词语对应的关联实体;
当不存在时,将空实体确定为该词语对应的关联实体,其中,空实体与该词语间的关系为空关系,所述实体表示信息还包括空实体对应的向量表示和空关系对应的关系因子。
进一步地,所述根据所述实体表示信息和所述所有关联实体,确定该词语对应的先验知识向量的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111268351.7/2.html,转载请声明来源钻瓜专利网。