[发明专利]一种无监督的文本相似度计算方法有效
申请号: | 201910807636.X | 申请日: | 2019-08-29 |
公开(公告)号: | CN110532557B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 吴超;宋颖毅;柯文俊;陈旭;陈静;王坤龙;杨雨婷 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F18/22;G06N3/088;G06N3/0442;G06N3/045 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种无监督的文本相似度计算方法,其中,包括:步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;步骤二:编码层网络,挖掘句子的语义信息;步骤三:进行基于TFIDF融合的模型改进,包括:在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层。本发明将深度神经网络模型(Bi‑LSTM)用于语料库的无监督训练,得到语言模型,通过无监督的训练方式,可以充分地利用大规模的语料库的信息,从而提高文本匹配的准确率,提升信息检索的精度。 | ||
搜索关键词: | 一种 监督 文本 相似 计算方法 | ||
【主权项】:
1.一种无监督的文本相似度计算方法,其特征在于,包括:/n步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;/n步骤二:编码层网络,挖掘句子的语义信息;/n步骤三:进行基于TFIDF融合的模型改进,包括:/n在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层;/n归一化的TFIDF算法包括:/n输入:问答集分词结果S,其中,si是第i个问题分词结果。 记为第i个问题分词结果si中的第j个词汇;/n输入问答集中句子的分词结果集合s;/n针对集合s中的每一个问句si,取并集,获得所有的分词词汇集合W,其中k为集合s中所有词汇的个数:/n /nW=[w1,w2,w3,...,wk];/n计算集合W中每一个词汇wp的归一化TF-IDF值:/n /n其中,TFIDF(wp)为词汇wp的TF-IDF值, 为集合W所有词汇的TF-IDF之和;/nwp的TF-IDF值TFIDF(wp)计算如下:/nTF值:TF(wp)=nw/ns,其中,nw表示wp在该句子中出现的次数,ns表示该句子中的词汇总数;/nIDF值IDF(wp)=logN/Nw,其中,N表示句子总数,Nw表示含有该词汇的句子总数;/n计算wp的TF-IDF值:/nTFIDF(wp)=TF(wp)*IDF(wp);/n输出:基于TF-IDF的词汇归一化结果集合;/n进行编码层TFIDF的融合包括:/n通过对LSTM门控结构分析,输入门控制着进入网络的信息量,将TFIDF的信息添加进入输入门,并用其控制信息的记忆;/n对输入门计算更新为如下:/nit=σ(ωi[ht-1,xt]+bi):/ni′t=it*softmax(tfidf(t)):/n表示层TFIDF的融合,在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值;/n模型的表示层计算更新为如下:/nh′t=ht*softmax(tfidf(t));/n /n其中,ht为时间步t时刻的输出。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910807636.X/,转载请声明来源钻瓜专利网。