[发明专利]一种无监督的文本相似度计算方法有效

申请号：	201910807636.X	申请日：	2019-08-29
公开（公告）号：	CN110532557B	公开（公告）日：	2023-07-28
发明（设计）人：	吴超;宋颖毅;柯文俊;陈旭;陈静;王坤龙;杨雨婷	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/30;G06F18/22;G06N3/088;G06N3/0442;G06N3/045
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	张然
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种无监督的文本相似度计算方法，其中，包括：步骤一：进行嵌入层模型预训练，对问题集合中的所有词进行预训练，生成满足模型需要的词向量；步骤二：编码层网络，挖掘句子的语义信息；步骤三：进行基于TFIDF融合的模型改进，包括：在每条问句输入到神经网络的同时，对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示，采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层。本发明将深度神经网络模型(Bi‑LSTM)用于语料库的无监督训练，得到语言模型，通过无监督的训练方式，可以充分地利用大规模的语料库的信息，从而提高文本匹配的准确率，提升信息检索的精度。
搜索关键词：	一种监督文本相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种无监督的文本相似度计算方法，其特征在于，包括：/n步骤一：进行嵌入层模型预训练，对问题集合中的所有词进行预训练，生成满足模型需要的词向量；/n步骤二：编码层网络，挖掘句子的语义信息；/n步骤三：进行基于TFIDF融合的模型改进，包括：/n在每条问句输入到神经网络的同时，对输入的每条问句进行TFIDF的计算，并将计算好的权值输入到神经网络中，控制最后的句子向量表示，采用了归一化的TFIDF计算方法，并将其融入到编码层和表示层；/n归一化的TFIDF算法包括：/n输入：问答集分词结果S，其中，s_i是第i个问题分词结果。记为第i个问题分词结果s_i中的第j个词汇；/n输入问答集中句子的分词结果集合s；/n针对集合s中的每一个问句s_i，取并集，获得所有的分词词汇集合W，其中k为集合s中所有词汇的个数：/n /nW＝[w₁，w₂，w₃，...，w_k]；/n计算集合W中每一个词汇w_p的归一化TF-IDF值：/n /n其中，TFIDF(w_p)为词汇w_p的TF-IDF值，为集合W所有词汇的TF-IDF之和；/nw_p的TF-IDF值TFIDF(w_p)计算如下：/nTF值：TF(w_p)＝n_w/n_s，其中，n_w表示w_p在该句子中出现的次数，n_s表示该句子中的词汇总数；/nIDF值IDF(w_p)＝logN/N_w，其中，N表示句子总数，N_w表示含有该词汇的句子总数；/n计算w_p的TF-IDF值：/nTFIDF(w_p)＝TF(w_p)*IDF(w_p)；/n输出：基于TF-IDF的词汇归一化结果集合；/n进行编码层TFIDF的融合包括：/n通过对LSTM门控结构分析，输入门控制着进入网络的信息量，将TFIDF的信息添加进入输入门，并用其控制信息的记忆；/n对输入门计算更新为如下：/ni_t＝σ(ω_i[h_t-1，x_t]+b_i)：/ni′_t＝i_t*softmax(tfidf(t))：/n表示层TFIDF的融合，在LSTM网络的输出状态输出时通过加权输入语句的TFIDF值；/n模型的表示层计算更新为如下：/nh′_t＝h_t*softmax(tfidf(t))；/n /n其中，ht为时间步t时刻的输出。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910807636.X/，转载请声明来源钻瓜专利网。

上一篇：文本新闻的处理方法、设备和存储介质
下一篇：一种基于句子结构深层解析的多意图识别方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种无监督的文本相似度计算方法有效

专利文献下载