[发明专利]一种基于WT-GloVe词向量构建的文本表示方法有效
申请号: | 201910573695.5 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110348497B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 姚全珠;古倩;费蓉;赵佳瑜;李莎莎 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/20 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王蕊转 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wt glove 向量 构建 文本 表示 方法 | ||
1.一种基于WT-GloVe词向量构建的文本表示方法,其特征在于,具体按照以下步骤实施:
步骤1、通过对网络文本自身特征的词间距计算评估其重要程度,根据特征的类间分布判别自身对类别的贡献度,将二者结合作为词间距和类间分布的特征加权模型,称为WDID-TFIDF;
所述步骤1具体按照以下步骤实施:
加载数据集20NewsGroups,导入所需模块,给出GloVe模型,设置训练数据存储路径,编码格式;定义函数,引入英文通用停用词表,对所加载数据集进行分词,将获取的文本内容按行读入文件,使用spacy模块工具进行文本预处理,完成词性标记便于后续信息过滤、统计模型,使用WDID-TFIDF计算特征词权重并生成矩阵;
所述步骤1具体按照以下步骤实施:
给定数据集20NewsGroups,首先,进行包括去停用词、词干词形分析在内的数据预处理过程,所得结果包括位置标识及词频统计数据;其次,将分词后的数据集D={d1,d2,...,da,...,dn}、所属类别集合C={c1,c2,...,ci,...,ck}按行读入,其中da={x1,x2,...,xj,...,xm},xj∈ci,特征词xj对类别ci的类间区分度ID表示为:
取特征词xj在各类别当中的最大值,作为它对该类别的贡献度;
其中,W(xj|ci)的值表示特征词xj对于类别ci的区分能力,特征词xj在ci中出现的频率为TF(xj|ci),不属于类别ci但包含xj的文本数为
对所得WD(xj|c)进行归一化处理:
此时得到特征词xj∈ci的类间区分度值,特征词xj的词间距WD计算为:
distance=Lj-Fj
其中,Lj为特征词xj在文本中最后一次出现的序号,Fj为特征词xj第一次出现的序号,count为分词处理之后的文本分词总数;
对于任意一个特征词xj∈ci,基于词间距和类间贡献度的WDID-TFIDF特征词权重值W(xj)计算为:
按照输入内容读入全部数据,计算各特征词权重,生成di文本表示的权值矩阵
步骤2、根据GloVe模型的自身缺点进行过滤无关词,以提高词向量训练质量;
所述步骤2具体按照以下步骤实施:
选取文本集中对应内容的词向量,其中包括词向量维度、词窗口大小、最小统计次词频;对于词典中的每个词zb,计算与文中其他词zg的cosθ值,当cosθ小于0时加入集合S(m);选择集合S(m)中的前H个词,计算给定窗口大小的上下文中的词l与选取的目标词zg、zb之间的共现概率比值λ;根据共现概率比值过滤生成矩阵中的无关词或噪音词,得到新的共现矩阵M,并输入GloVe中得到新的词向量;
所述步骤2具体按照以下步骤实施:
在GloVe损失函数当中,共现矩阵X中每一个元素Xef表示词f在目标词e的上下文窗口中内出现的次数,为矩阵X在某行的和,即目标词e窗口内所有上下文词出现的总次数,Pef=P(f|e)=Xef/Xe表示词f出现在词e周围的概率,设z1为ice,z2为steam:
当z1,z2与对应上下文中的共同出现词为gas时,在ice出现的情况下gas出现的概率取值为6.6×10-5,在steam出现的情况下gas出现的概率取值为7.8×10-4,在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值为8.5×10-2;
当z1,z2与对应上下文中的共同出现词为solid时,在ice出现的情况下solid出现的概率取值为1.9×10-4,在steam出现的情况下solid出现的概率取值为2.2×10-5,在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值为8.6;
当z1,z2与对应上下文中的共同出现词为fashion时,在ice出现的情况下fashion出现的概率取值为1.7×10-5,在steam出现的情况下fashion出现的概率取值为1.8×10-5,在ice出现的情况下fashion出现的概率与在steam出现的情况下fashion出现的概率比值为0.94;
当z1,z2与对应上下文中的共同出现词为water时,在ice出现的情况下water出现的概率取值为3.0×10-3,在steam出现的情况下water出现的概率取值为2.2×10-3,在ice出现的情况下water出现的概率与在steam出现的情况下water出现的概率比值为1.36;
当z1,z2无关,且上下文为不同l时,即l=gas,solid,fashion,water,当l=gas时,gas与ice明显不相关,与steam更相关,在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值P(l|ice)P(l|steam)远小于1;当l=solid时,solid和ice相关,而solid和steam不相关,在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值远大于1;即引入词l与z1或z2其中之一语义相似度越小时共现概率比值与1的距离越远;但当l=fashion时,fashion与z1,z2都无关,P(l|ice)P(l|steam)接近于1;当l=water时,water与ice和steam都相关,二者的比值也接近于1,即语义越相近的词之间在上下文的贡献概率比值越接近于1;
当ze和zf语义不相似时且已知上下文所包含词l时,从共现概率比值中获取词l是否为无关信息,对于词ze和zf在给定窗口大小的上下文中包含词l时,共现概率比值为:
设词ze和zf不相似,给定上下文词l时,则有:
(1)当共现概率比值λ≈1时,此时l为无关词;
(2)当共现概率比值λ>> 1 或λ<< 1 时,此时l与词ze或zf其中之一语义相似;
因此,选择与词ze不相似的zf过滤无关词,关于词向量相似度的计算方式如下:
其中,为词ze,zf所对应的词向量;
即如果两个词语的余弦值越小,那么两个词语的上下文越不相似,语义相差越远,所以用余弦值来作为选择不相似词的一般公式,从所有与ze的余弦距离小于0的集合S(m)中随机的选择N个不相似的词语zf过滤ze上下文中的无关词,减小共现矩阵中非零元素的数量过滤共现矩阵中的无关词,得到新的共现矩阵M并将其输入GloVe中;
步骤3、根据步骤2所得结果选择步骤1中对应词间距和类间分布的特征加权值并进行点乘,得到加权词向量模型,即为最终得到的文本表示方法,
所述步骤3具体按照以下步骤实施:
根据步骤2得,在da={x1,x2,...,xj,...,xm}文本中特征词xj的词向量为xj=(o1,j,o2,j,...,oq,j,...,ot,j),oq,j是特征词xj的词向量在第q个特征维度上的值,结合步骤1中经计算所得的每个特征词的WDID-TFIDF值,基于WT-GloVe词向量加权模型的文本表示为:
xj′=(o1,j,o2,j,...,oq,j,...,ot,j)·W(xj)
其中,t为特征词xj的词向量维度,最终得到20NewsGroups数据集的基于WT-GloVe词向量构建的文本表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910573695.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸图像融合的方法及系统
- 下一篇:一种缝纫线迹缺陷检测方法