[发明专利]一种双语短文本匹配方法在审
申请号: | 202010386142.1 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111553168A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王春辉;胡勇 | 申请(专利权)人: | 识因智能科技(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 卢业强 |
地址: | 102600 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 文本 匹配 方法 | ||
1.一种双语短文本匹配方法,其特征在于,包括以下步骤:
步骤1,建立双语LDA模型;
步骤2,将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;
步骤3,将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;
步骤4,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;
步骤5,计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。
2.根据权利要求1所述的双语短文本匹配方法,其特征在于,所述步骤1以语料库中的文档为训练样本建立双语LDA模型,具体包括以下步骤:
步骤1.1,给语料库中每个文档中的每个词随机地赋予一个主题序号k,1≤k≤K,K为主题总数;
步骤1.2,针对每个词,根据文档中其它词的主题序号预测当前词的主题概率分布,然后根据所述主题概率分布采样一个主题序号作为当前词的主题;
步骤1.3,重复步骤1.2,直至文档中所有词的主题序号不再变化为止;
步骤1.4,统计所有词的主题,得到文档-主题概率分布θ,以及源语言短文本第t个词的词-主题概率分布和目标语言短文本第t个词的词-主题概率分布
θ={θ1,θ2,…,θK}
式中,k为主题序号,1≤k≤K,K为主题总数;α、βS、βT分别为预设的文档-主题、源语言短文本的词-主题、目标语言短文本的词-主题的共轭先验概率,源语言和目标语言分别为两个短文本采用的语言;为源语言短文本第t个词被分配为第k个主题的次数;为目标语言短文本第t个词被分配为第k个主题的次数。
3.根据权利要求1所述的双语短文本匹配方法,其特征在于,所述阈值为0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于识因智能科技(北京)有限公司,未经识因智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010386142.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机车辅助供电电路及供电方法
- 下一篇:轨道系统