[发明专利]一种基于WT-GloVe词向量构建的文本表示方法有效

申请号：	201910573695.5	申请日：	2019-06-28
公开（公告）号：	CN110348497B	公开（公告）日：	2021-09-10
发明（设计）人：	姚全珠;古倩;费蓉;赵佳瑜;李莎莎	申请（专利权）人：	西安理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/20
代理公司：	西安弘理专利事务所 61214	代理人：	王蕊转
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 wt glove 向量构建文本表示方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于WT-GloVe词向量构建的文本表示方法，其特征在于，具体按照以下步骤实施：

步骤1、通过对网络文本自身特征的词间距计算评估其重要程度，根据特征的类间分布判别自身对类别的贡献度，将二者结合作为词间距和类间分布的特征加权模型，称为WDID-TFIDF；

所述步骤1具体按照以下步骤实施：

加载数据集20NewsGroups，导入所需模块，给出GloVe模型，设置训练数据存储路径，编码格式；定义函数，引入英文通用停用词表，对所加载数据集进行分词，将获取的文本内容按行读入文件，使用spacy模块工具进行文本预处理，完成词性标记便于后续信息过滤、统计模型，使用WDID-TFIDF计算特征词权重并生成矩阵；

所述步骤1具体按照以下步骤实施：

给定数据集20NewsGroups，首先，进行包括去停用词、词干词形分析在内的数据预处理过程，所得结果包括位置标识及词频统计数据；其次，将分词后的数据集D＝{d₁,d₂,...,d_a,...,d_n}、所属类别集合C＝{c₁,c₂,...,c_i,...,c_k}按行读入，其中d_a＝{x₁,x₂,...,x_j,...,x_m}，x_j∈c_i，特征词x_j对类别c_i的类间区分度ID表示为：

取特征词x_j在各类别当中的最大值，作为它对该类别的贡献度；

其中，W(x_j|c_i)的值表示特征词x_j对于类别c_i的区分能力，特征词x_j在c_i中出现的频率为TF(x_j|c_i)，不属于类别c_i但包含x_j的文本数为

对所得W_D(x_j|c)进行归一化处理：

此时得到特征词x_j∈c_i的类间区分度值，特征词x_j的词间距WD计算为：

distance＝L_j-F_j

其中，L_j为特征词x_j在文本中最后一次出现的序号，F_j为特征词x_j第一次出现的序号，count为分词处理之后的文本分词总数；

对于任意一个特征词x_j∈c_i，基于词间距和类间贡献度的WDID-TFIDF特征词权重值W(x_j)计算为：

按照输入内容读入全部数据，计算各特征词权重，生成d_i文本表示的权值矩阵

步骤2、根据GloVe模型的自身缺点进行过滤无关词，以提高词向量训练质量；

所述步骤2具体按照以下步骤实施：

选取文本集中对应内容的词向量，其中包括词向量维度、词窗口大小、最小统计次词频；对于词典中的每个词z_b,计算与文中其他词z_g的cosθ值，当cosθ小于0时加入集合S(m)；选择集合S(m)中的前H个词，计算给定窗口大小的上下文中的词l与选取的目标词z_g、z_b之间的共现概率比值λ；根据共现概率比值过滤生成矩阵中的无关词或噪音词，得到新的共现矩阵M，并输入GloVe中得到新的词向量；

所述步骤2具体按照以下步骤实施：

在GloVe损失函数当中，共现矩阵X中每一个元素X_ef表示词f在目标词e的上下文窗口中内出现的次数，为矩阵X在某行的和，即目标词e窗口内所有上下文词出现的总次数，P_ef＝P(f|e)＝X_ef/X_e表示词f出现在词e周围的概率，设z₁为ice，z₂为steam：

当z₁，z₂与对应上下文中的共同出现词为gas时，在ice出现的情况下gas出现的概率取值为6.6×10^-5，在steam出现的情况下gas出现的概率取值为7.8×10^-4，在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值为8.5×10^-2；

当z₁，z₂与对应上下文中的共同出现词为solid时，在ice出现的情况下solid出现的概率取值为1.9×10^-4，在steam出现的情况下solid出现的概率取值为2.2×10^-5，在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值为8.6；

当z₁，z₂与对应上下文中的共同出现词为fashion时，在ice出现的情况下fashion出现的概率取值为1.7×10^-5，在steam出现的情况下fashion出现的概率取值为1.8×10^-5，在ice出现的情况下fashion出现的概率与在steam出现的情况下fashion出现的概率比值为0.94；

当z₁，z₂与对应上下文中的共同出现词为water时，在ice出现的情况下water出现的概率取值为3.0×10^-3，在steam出现的情况下water出现的概率取值为2.2×10^-3，在ice出现的情况下water出现的概率与在steam出现的情况下water出现的概率比值为1.36；

当z₁，z₂无关，且上下文为不同l时，即l＝gas,solid,fashion,water，当l＝gas时，gas与ice明显不相关，与steam更相关，在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值P(l|ice)P(l|steam)远小于1；当l＝solid时，solid和ice相关，而solid和steam不相关，在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值远大于1；即引入词l与z₁或z₂其中之一语义相似度越小时共现概率比值与1的距离越远；但当l＝fashion时，fashion与z₁，z₂都无关，P(l|ice)P(l|steam)接近于1；当l＝water时，water与ice和steam都相关，二者的比值也接近于1，即语义越相近的词之间在上下文的贡献概率比值越接近于1；

当z_e和z_f语义不相似时且已知上下文所包含词l时，从共现概率比值中获取词l是否为无关信息，对于词z_e和z_f在给定窗口大小的上下文中包含词l时，共现概率比值为：

设词z_e和z_f不相似，给定上下文词l时，则有：

(1)当共现概率比值λ≈1时，此时l为无关词；

(2)当共现概率比值λ＞＞ 1 或λ＜＜ 1 时，此时l与词z_e或z_f其中之一语义相似；

因此，选择与词z_e不相似的z_f过滤无关词，关于词向量相似度的计算方式如下：

其中，为词z_e，z_f所对应的词向量；

即如果两个词语的余弦值越小，那么两个词语的上下文越不相似，语义相差越远，所以用余弦值来作为选择不相似词的一般公式，从所有与z_e的余弦距离小于0的集合S(m)中随机的选择N个不相似的词语z_f过滤z_e上下文中的无关词，减小共现矩阵中非零元素的数量过滤共现矩阵中的无关词，得到新的共现矩阵M并将其输入GloVe中；

步骤3、根据步骤2所得结果选择步骤1中对应词间距和类间分布的特征加权值并进行点乘，得到加权词向量模型，即为最终得到的文本表示方法，

所述步骤3具体按照以下步骤实施：

根据步骤2得，在d_a＝{x₁,x₂,...,x_j,...,x_m}文本中特征词x_j的词向量为x_j＝(o_1,j,o_2,j,...,o_q,j,...,o_t,j)，o_q,j是特征词x_j的词向量在第q个特征维度上的值，结合步骤1中经计算所得的每个特征词的WDID-TFIDF值，基于WT-GloVe词向量加权模型的文本表示为：

x_j′＝(o_1,j,o_2,j,...,o_q,j,...,o_t,j)·W(x_j)

其中，t为特征词x_j的词向量维度，最终得到20NewsGroups数据集的基于WT-GloVe词向量构建的文本表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910573695.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于WT-GloVe词向量构建的文本表示方法有效

专利文献下载