[发明专利]一种基于概念图的跨语言信息检索方法有效
申请号: | 201910627206.X | 申请日: | 2019-07-12 |
公开(公告)号: | CN110309268B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 刘刚;张森南;刘汪洋;雷吉成;胡昱临 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安合创非凡知识产权代理事务所(普通合伙) 61248 | 代理人: | 于波 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 语言 信息 检索 方法 | ||
本发明公开了一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG‑CLIR的方法,包括以下步骤:S1,基于Skip‑Gram的概念图边表示;S2,融合边信息的高阶语义嵌入及相似度计算;所述步骤S1包括文本预处理、概念图边语义嵌入;所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。本发明的方法在文本跨语言信息检索中,跨越了语言障碍,在不经过翻译的情况下,实现了语义检索的效果。
技术领域
本发明涉及跨语言信息检索,具体涉及一种基于概念图的跨语言信息检索方法。
背景技术
目前,对文本进行向量表示再进行处理成为了文本分析任务的主流,最常见的就是对词进行向量化表示,例如one-hot模型和词嵌入模型,将句子中的n个词表示成n个d维的向量,这样句子就是一个n*d维的矩阵,方便进行处理。还有一种方法是把句子或者文档映射为一个向量,把段落、文本构造为向量矩阵。这种方法处理时,更多的考虑更长的序列信息问题,也能更好的表示全局信息。但是由于句子是变长的,且作为语义的基本表示单元,词在句子中可以有多种不同的组合,这导致了句子向量表示太过稀疏。一般句子向量多用于篇幅更大的文本任务中。
随着Word Embedding 的提出,研究者们在很多研究内容中都利用了Embedding的方法,除了Word2vec还出现了Sentence2Vec、Doc2vec等方法。嵌入方法虽然是一种浅层语义表示方法,但是它本质还是通过上下文信息对嵌入目标进行分布式向量表示,这也和NLP任务中基于统计的思想是相同的。在自然语言中,虽然不同的语言有不同的表示形式,但是同样的概念在同样的语境下,它们的统计分布是相似的。
传统的检索方法往往通过浅层的文本特征信息进行相似度评价,即使利用语义进行相似度对比,也往往仅仅体现在词层面,对于全局语音特征的利用不够充分。在跨语言相似度检索任务中,由于不同语种的语法存在不同,词的翻译也存在消岐的问题,一般不能通过简单的文本特征进行检索。文本的跨语言信息检索更应该对语义信息进行更深的挖掘,例如上下文语义信息。若是在模糊搜索或者是跨语言相似文本推荐的任务中,更应该全局考虑关键词语义与全文语义的联系。
发明内容
本发明针对上述问题,提供了一种基于概念图的跨语言信息检索方法。
本发明采用的技术方案为:一种基于概念图的跨语言信息检索方法,所述基于概念图的跨语言信息检索方法为跨语言相似度评估框架CG-CLIR的方法,包括以下步骤:
S1,基于Skip-Gram的概念图边表示;
S2,融合边信息的高阶语义嵌入及相似度计算;
所述步骤S1包括文本预处理、概念图边语义嵌入;
所述步骤S2包括基于LSTM的图级别语义嵌入、基于图嵌入的相似度计算。
进一步地,所述文本预处理包括:分别将概念图中的双语实体、双语关系嵌入空间和,其中为嵌入向量维度的大小;将对应中英文概念图分别表示为和,其中n为图中的概念个数,m为图中的关系个数;为对图中的边进行嵌入,再图嵌入之前,先将关系也看作实体,把边转化为节点,把带有信息的边转化有向的不带信息的边;首先对图中的概念进行语义表示,再将节点的语义表示作为输入对概念图整体进行语义,获取概念图的全局信息;从而更加全面准确地进行跨语言检索。
更进一步地,所述概念图边语义嵌入:在图嵌入的基础上,首先对概念图中的关系进行分类表示,在构造关系标签的基础上再对图进行整体嵌入;。
更进一步地,所述基于LSTM的图级别语义嵌入包括:
S211,在整个训练样本上从图结构和节点特征中学习节点嵌入;
S212,从Gumbel-Softmax分布近似的随机游走方法连续采样图节点序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910627206.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置