[发明专利]一种双语短文本匹配方法在审
申请号: | 202010386142.1 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111553168A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王春辉;胡勇 | 申请(专利权)人: | 识因智能科技(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 卢业强 |
地址: | 102600 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 文本 匹配 方法 | ||
本发明公开一种双语短文本匹配方法。所述方法包括:建立双语LDA模型;将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。
技术领域
本发明属于自然语言理解技术领域,具体涉及一种双语短文本匹配方法。
背景技术
文本匹配在自然语言理解中占有很重要的地位。文本匹配可以应用于大量的自然语言处理任务中,例如信息检索、问答系统、复述问题、对话系统、机器翻译等等。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如,信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句话和回复的匹配,机器翻译则可以归结为两种语言的匹配。
传统的文本匹配技术包括话题模型、词匹配模型、VSM(Vector Space Model,向量空间模型)等方法,主要是基于关键词的匹配问题。这一类模型需要大量的人工定义和抽取的特征作为基础,而这些特征是任务相关的,无法直接应用于其它任务上。基于深度神经网络的方法可以自动抽取原始数据中的特征,节约了大量人工设计特征带来的人力物力开销。
深度文本匹配模型基于文本表示,抽取句子主要成分,将文本序列转化为向量表示。在此过程中,可以基于DNN、CNN或RNN模型对整个文本进行建模。通常使用基于双向LSTM模型捕获句子内的长距离依赖关系。还有一种基于CNN的交互式文本匹配模型,它的优势是可以很好地把握语义焦点,对上下文重要性合理建模,防止语义焦点出现偏差。目前基于深度神经网络的方法提取短文本向量表示,随后计算待匹配文本之间的向量相似度。这种方式存在一个明显的问题,即文本过短导致可提取的特征太少,简单套用深度神经网络模型很难取得良好的效果。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种引入双语主题知识的双语短文本匹配方法。
为实现上述目的,本发明采用如下技术方案:
一种双语短文本匹配方法,包括以下步骤:
步骤1,建立双语LDA(Latent Dirichlet Allocation,文档主题生成模型)模型;
步骤2,将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;
步骤3,将两个短文本分别经过embedding、双向LSTM(Long Short-Term Memory,长短期记忆网络),得到两个短文本的语义表示;
步骤4,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;
步骤5,计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。
与现有技术相比,本发明具有以下有益效果:
本发明通过建立双语LDA模型,将包含相同主题的不同语言的两个短文本分别输入双语LDA模型,得到两个短文本的主题表示,将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量,计算所述两个短文本向量的相似度,根据相似度的大小判断两个短文本是否相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010386142.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机车辅助供电电路及供电方法
- 下一篇:轨道系统