[发明专利]一种基于概念图的跨语言信息检索方法有效

专利信息
申请号: 201910627206.X 申请日: 2019-07-12
公开(公告)号: CN110309268B 公开(公告)日: 2021-06-29
发明(设计)人: 刘刚;张森南;刘汪洋;雷吉成;胡昱临 申请(专利权)人: 中电科大数据研究院有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 西安合创非凡知识产权代理事务所(普通合伙) 61248 代理人: 于波
地址: 550000 贵州省贵阳市贵阳*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概念 语言 信息 检索 方法
【说明书】:

发明公开了一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG‑CLIR的方法,包括以下步骤:S1,基于Skip‑Gram的概念图边表示;S2,融合边信息的高阶语义嵌入及相似度计算;所述步骤S1包括文本预处理、概念图边语义嵌入;所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。

技术领域

本发明涉及跨语言信息检索,具体涉及一种基于概念图的跨语言信息检索方法。

背景技术

目前,对文本进行向量表示再进行处理成为了文本分析任务的主流,最常见的就是对词进行向量化表示,例如one-hot模型和词嵌入模型,将句子中的n个词表示成n个d维的向量,这样句子就是一个n*d维的矩阵,方便进行处理。还有一种方法是把句子或者文档映射为一个向量,把段落、文本构造为向量矩阵。这种方法处理时,更多的考虑更长的序列信息问题,也能更好的表示全局信息。但是由于句子是变长的,且作为语义的基本表示单元,词在句子中可以有多种不同的组合,这导致了句子向量表示太过稀疏。一般句子向量多用于篇幅更大的文本任务中。

随着Word Embedding 的提出,研究者们在很多研究内容中都利用了Embedding的方法,除了Word2vec还出现了Sentence2Vec、Doc2vec等方法。嵌入方法虽然是一种浅层语义表示方法,但是它本质还是通过上下文信息对嵌入目标进行分布式向量表示,这也和NLP任务中基于统计的思想是相同的。在自然语言中,虽然不同的语言有不同的表示形式,但是同样的概念在同样的语境下,它们的统计分布是相似的。

传统的检索方法往往通过浅层的文本特征信息进行相似度评价,即使利用语义进行相似度对比,也往往仅仅体现在词层面,对于全局语音特征的利用不够充分。在跨语言相似度检索任务中,由于不同语种的语法存在不同,词的翻译也存在消岐的问题,一般不能通过简单的文本特征进行检索。文本的跨语言信息检索更应该对语义信息进行更深的挖掘,例如上下文语义信息。若是在模糊搜索或者是跨语言相似文本推荐的任务中,更应该全局考虑关键词语义与全文语义的联系。

发明内容

本发明针对上述问题,提供了一种基于概念图的跨语言信息检索方法。

本发明采用的技术方案为:一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法,包括以下步骤:

S1,基于Skip-Gram的概念图边表示;

S2,融合边信息的高阶语义嵌入及相似度计算;

所述步骤S1包括文本预处理、概念图边语义嵌入;

所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。

进一步地,所述文本预处理包括:分别将概念图中的双语实体、双语关系嵌入空间和,其中为嵌入向量维度的大小;将对应中英文概念图分别表示为和,其中n为图中的概念个数,m为图中的关系个数;为对图中的边进行嵌入,再图嵌入之前,先将关系也看作实体,把边转化为节点,把带有信息的边转化有向的不带信息的边;首先对图中的概念进行语义表示,再将节点的语义表示作为输入对概念图整体进行语义,获取概念图的全局信息;从而更加全面准确地进行跨语言检索。

更进一步地,所述概念图边语义嵌入:在图嵌入的基础上,首先对概念图中的关系进行分类表示,在构造关系标签的基础上再对图进行整体嵌入;。

更进一步地,所述基于LSTM的图级别语义嵌入包括:

S211,在整个训练样本上从图结构和节点特征中学习节点嵌入;

S212,从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910627206.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top