[发明专利]基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统有效

申请号：	201710070391.8	申请日：	2017-02-09
公开（公告）号：	CN106844346B	公开（公告）日：	2020-08-25
发明（设计）人：	曹杰;冯雨晖;宿晓坤;杨睿;何源浩	申请（专利权）人：	北京红马传媒文化发展有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/284;G06F40/289;G06N20/00
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	郭少晶
地址：	100027 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习模型 word2vec 文本语义相似性判别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习模型word2vec的短文本语义相似性判别方法，其特征在于，包括：

将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合；

提取所述多维的词向量集合的特征数据，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型；

所述提取所述多维的词向量集合的特征数据，包括但不限于：

提取词粒度的语义特征数据、文本粒度的语义相似性特征数据和文本粒度的向量维度特征数据；

提取词粒度的语义特征数据的方法包括：

通过公式

在词粒度上对短文本对进行最大值，中位数，最小值三个语义特征的提取；

其中，(s_l，s_s)为文本对，s_l表示较长的文本，s_s表示较短的文本，avgsl表示训练语料集中句子的平均长度，k₁和b为模型参数，起到平滑的作用，IDF(w)是词w的逆向文档频率，词w和短文本s之间的语义相似性表示为sem(w,s):

其中函数f_sem为计算的两个词向量之间的语义相似度，使用的是余弦相似度，词向量源于训练得到的word2vec模型；

f_sts计算的总体分值基于词粒度表征短文本之间的语义相似性，但是为了获取更多的特征，对f_sts计算过程中的累加项进行提取，分别提取最大值，中位数，最小值三个特征。

2.如权利要求1所述的方法，其特征在于，所述将获取的中文语料集进行文本预处理后输入至深度学习模型word2vec中进行模型训练得到多维的词向量集合，包括：

获取中文语料集，所述中文语料集包括但不限于中文维基百科中文语料集或搜狗新闻语料中的一种或多种；

将获取的中文语料集预处理为深度学习模型word2vec支持的输入格式的文本数据；

将预处理后的文本数据输入至深度学习模型word2vec中，并调取word2vec中的参数进行模型训练，得到目标维度的词向量集合。

3.如权利要求1所述的方法，其特征在于，若word2vec深度学习模型不包含词w，则该词用一个随机生成的n维向量表示，向量各维度取值在[0,1]，且相同词对应同一个随机向量。

4.如权利要求1所述的方法，其特征在于，提取文本粒度的语义相似性特征数据的方法包括：

一个文本的向量定义为T，词向量w通过公式：

计算文本向量后，分别通过余弦距离和欧氏距离计算文本粒度之间的语义相似性特征数据；其中，N表示短文本中词的数量，w_i表示第i个词向量。

5.如权利要求1所述的方法，其特征在于，提取文本粒度的向量维度特征数据的方法包括：

设短文本对为(S_n1，S_n2)，对应的文本向量为(T_n1，T_n2)，分别计算向量T_n1和T_n2对应维度的差值Δ_i，i＝(1,2,......,K)；定义差值区间，依据短文本对各维度的差值Δ_i隶属的区间范围，分别统计每个差值区间中特征的数量，作为文本向量的特征数据。

6.如权利要求1所述的方法，其特征在于，将所述特征数据与标注数据同时输入至SVC模型中进行模型训练，得到短文本语义相似性判别模型，包括：

将特征数据的短文本对列表与标注数据的标注标签列表同时输入至SVC模型中，同时调取词向量集、特征提取算子进行模型训练，将训练的预测模型输出，得到短文本语义相似性判别模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京红马传媒文化发展有限公司，未经北京红马传媒文化发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710070391.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载