[发明专利]一种无监督的文本相似度计算方法有效
申请号: | 201910807636.X | 申请日: | 2019-08-29 |
公开(公告)号: | CN110532557B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 吴超;宋颖毅;柯文俊;陈旭;陈静;王坤龙;杨雨婷 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/30;G06F18/22;G06N3/088;G06N3/0442;G06N3/045 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 文本 相似 计算方法 | ||
1.一种无监督的文本相似度计算方法,其特征在于,包括:
步骤一:进行嵌入层模型预训练,对问题集合中的所有词进行预训练,生成满足模型需要的词向量;
步骤二:编码层网络,挖掘句子的语义信息;
步骤三:进行基于TFIDF融合的模型改进,包括:
在每条问句输入到神经网络的同时,对输入的每条问句进行TFIDF的计算,并将计算好的权值输入到神经网络中,控制最后的句子向量表示,采用了归一化的TFIDF计算方法,并将其融入到编码层和表示层;
归一化的TFIDF算法包括:
输入:问答集分词结果S,其中,si是第i个问题分词结果;记为第i个问题分词结果si中的第j个词汇;
输入问答集中句子的分词结果集合S;
针对集合S中的每一个问句si,取并集,获得所有的分词词汇集合W,其中k为集合S中所有词汇的个数:
计算集合W中每一个词汇wp的归一化TF-IDF值:
其中,TFIDF(wp)为词汇wp的TF-IDF值,为集合W所有词汇的TF-IDF之和;
wp的TF-IDF值TFIDF(wp)计算如下:
TF值:TF(wp)=nw/ns,其中,nw表示wp在该句子中出现的次数,ns表示该句子中的词汇总数;
IDF值IDF(wp)=log N/Nw,其中,N表示句子总数,Nw表示含有该词汇的句子总数;
计算wp的TF-IDF值:
TFIDF(wp)=TF(wp)*IDF(wp);
输出:基于TF-IDF的词汇归一化结果集合;
进行编码层TFIDF的融合包括:
通过对LSTM门控结构分析,输入门控制着进入网络的信息量,将TFIDF的信息添加进入输入门,并用其控制信息的记忆;
对输入门计算更新为如下:
it=σ(ωi[ht-1,xt]+bi);
i′t=it*softmax(tfidf(t));
表示层TFIDF的融合,在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值;
模型的表示层计算更新为如下:
h′t=ht*softmax(tfidf(t));
其中,ht为时间步t时刻的输出。
2.如权利要求1所述的无监督的文本相似度计算方法,其特征在于,采用了Word2Vector模型和BERT模型来进行嵌入层模型的预训练。
3.如权利要求2所述的无监督的文本相似度计算方法,其特征在于,Word2Vector包括:训练模型CBOW和训练模型Skip_gram。
4.如权利要求2所述的无监督的文本相似度计算方法,其特征在于,BERT模型训练层包括预训练语言模型阶段和根据具体语义标注任务的模型改造阶段,其中在预训练阶段中,采用MaskedLM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的语义表达,以期获取准确的语言模型。
5.如权利要求1所述的无监督的文本相似度计算方法,其特征在于,步骤二选用了Bi-LSTM网络来进行编码和训练。
6.如权利要求5所述的无监督的文本相似度计算方法,其特征在于,LSTM细胞结构包括:
LSTM通过三种门结构来对信息进行筛选,以此来控制信息输出,分别为遗忘门、输入门和输出门,LSTM隐藏层内部信息更新包括:
ft为t时刻遗忘门输出的值,遗忘门是控制历史信息对当前细胞单元状态的影响,计算公式如下:
ft=σ(ωf[ht-1,xt]+bf);
it为t时刻输入门输出的值,输入门的作用是当前的输入信息对当前细胞单元状态的影响,计算公式如下:
it=σ(ωi[ht-1,xt]+bi);
当前细胞状态单元的候选值,通过得到当前时刻细胞单元的状态值Ct,计算公式如下:
Ot为当前细胞状态单元的输出候选值,由输出门进行控制,通过Ot与Ct进行结合得到细胞单元在该时刻的输出ht,计算公式如下:
Ot=σ(ωo[ht-1,xt]+bo);
ht=Ot*tanh(Ct)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910807636.X/1.html,转载请声明来源钻瓜专利网。