[发明专利]一种无监督的文本相似度计算方法有效

专利信息
申请号: 201910807636.X 申请日: 2019-08-29
公开(公告)号: CN110532557B 公开(公告)日: 2023-07-28
发明(设计)人: 吴超;宋颖毅;柯文俊;陈旭;陈静;王坤龙;杨雨婷 申请(专利权)人: 北京计算机技术及应用研究所
主分类号: G06F40/216 分类号: G06F40/216;G06F40/30;G06F18/22;G06N3/088;G06N3/0442;G06N3/045
代理公司: 中国兵器工业集团公司专利中心 11011 代理人: 张然
地址: 100854*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种无监督的文本相似度计算方法,其中,包括:步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;步骤二:编码层网络,挖掘句子的语义信息;步骤三:进行基于TFIDF融合的模型改进,包括:在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层。本发明将深度神经网络模型(Bi‑LSTM)用于语料库的无监督训练,得到语言模型,通过无监督的训练方式,可以充分地利用大规模的语料库的信息,从而提高文本匹配的准确率,提升信息检索的精度。
搜索关键词: 一种 监督 文本 相似 计算方法
【主权项】:
1.一种无监督的文本相似度计算方法,其特征在于,包括:/n步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;/n步骤二:编码层网络,挖掘句子的语义信息;/n步骤三:进行基于TFIDF融合的模型改进,包括:/n在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层;/n归一化的TFIDF算法包括:/n输入:问答集分词结果S,其中,si是第i个问题分词结果。记为第i个问题分词结果si中的第j个词汇;/n输入问答集中句子的分词结果集合s;/n针对集合s中的每一个问句si,取并集,获得所有的分词词汇集合W,其中k为集合s中所有词汇的个数:/n /nW=[w1,w2,w3,...,wk];/n计算集合W中每一个词汇wp的归一化TF-IDF值:/n /n其中,TFIDF(wp)为词汇wp的TF-IDF值,为集合W所有词汇的TF-IDF之和;/nwp的TF-IDF值TFIDF(wp)计算如下:/nTF值:TF(wp)=nw/ns,其中,nw表示wp在该句子中出现的次数,ns表示该句子中的词汇总数;/nIDF值IDF(wp)=logN/Nw,其中,N表示句子总数,Nw表示含有该词汇的句子总数;/n计算wp的TF-IDF值:/nTFIDF(wp)=TF(wp)*IDF(wp);/n输出:基于TF-IDF的词汇归一化结果集合;/n进行编码层TFIDF的融合包括:/n通过对LSTM门控结构分析,输入门控制着进入网络的信息量,将TFIDF的信息添加进入输入门,并用其控制信息的记忆;/n对输入门计算更新为如下:/nit=σ(ωi[ht-1,xt]+bi):/ni′t=it*softmax(tfidf(t)):/n表示层TFIDF的融合,在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值;/n模型的表示层计算更新为如下:/nh′t=ht*softmax(tfidf(t));/n /n其中,ht为时间步t时刻的输出。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910807636.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top