[发明专利]一种双语短文本匹配方法在审

专利信息
申请号: 202010386142.1 申请日: 2020-05-09
公开(公告)号: CN111553168A 公开(公告)日: 2020-08-18
发明(设计)人: 王春辉;胡勇 申请(专利权)人: 识因智能科技(北京)有限公司
主分类号: G06F40/30 分类号: G06F40/30
代理公司: 北京中北知识产权代理有限公司 11253 代理人: 卢业强
地址: 102600 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 双语 文本 匹配 方法
【说明书】:

发明公开一种双语短文本匹配方法。所述方法包括:建立双语LDA模型;将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。

技术领域

本发明属于自然语言理解技术领域,具体涉及一种双语短文本匹配方法。

背景技术

文本匹配在自然语言理解中占有很重要的地位。文本匹配可以应用于大量的自然语言处理任务中,例如信息检索、问答系统、复述问题、对话系统、机器翻译等等。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如,信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句话和回复的匹配,机器翻译则可以归结为两种语言的匹配。

传统的文本匹配技术包括话题模型、词匹配模型、VSM(Vector Space Model,向量空间模型)等方法,主要是基于关键词的匹配问题。这一类模型需要大量的人工定义和抽取的特征作为基础,而这些特征是任务相关的,无法直接应用于其它任务上。基于深度神经网络的方法可以自动抽取原始数据中的特征,节约了大量人工设计特征带来的人力物力开销。

深度文本匹配模型基于文本表示,抽取句子主要成分,将文本序列转化为向量表示。在此过程中,可以基于DNN、CNN或RNN模型对整个文本进行建模。通常使用基于双向LSTM模型捕获句子内的长距离依赖关系。还有一种基于CNN的交互式文本匹配模型,它的优势是可以很好地把握语义焦点,对上下文重要性合理建模,防止语义焦点出现偏差。目前基于深度神经网络的方法提取短文本向量表示,随后计算待匹配文本之间的向量相似度。这种方式存在一个明显的问题,即文本过短导致可提取的特征太少,简单套用深度神经网络模型很难取得良好的效果。

发明内容

为了解决现有技术中存在的上述问题,本发明提出一种引入双语主题知识的双语短文本匹配方法。

为实现上述目的,本发明采用如下技术方案:

一种双语短文本匹配方法,包括以下步骤:

步骤1,建立双语LDA(Latent Dirichlet Allocation,文档主题生成模型)模型;

步骤2,将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;

步骤3,将两个短文本分别经过embedding、双向LSTM(Long Short-Term Memory,长短期记忆网络),得到两个短文本的语义表示;

步骤4,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;

步骤5,计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。

与现有技术相比,本发明具有以下有益效果:

本发明通过建立双语LDA模型,将包含相同主题的不同语言的两个短文本分别输入双语LDA模型,得到两个短文本的主题表示,将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量,计算所述两个短文本向量的相似度,根据相似度的大小判断两个短文本是否相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010386142.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top