[发明专利]一种基于WT-GloVe词向量构建的文本表示方法有效

专利信息
申请号: 201910573695.5 申请日: 2019-06-28
公开(公告)号: CN110348497B 公开(公告)日: 2021-09-10
发明(设计)人: 姚全珠;古倩;费蓉;赵佳瑜;李莎莎 申请(专利权)人: 西安理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F40/20
代理公司: 西安弘理专利事务所 61214 代理人: 王蕊转
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 wt glove 向量 构建 文本 表示 方法
【权利要求书】:

1.一种基于WT-GloVe词向量构建的文本表示方法,其特征在于,具体按照以下步骤实施:

步骤1、通过对网络文本自身特征的词间距计算评估其重要程度,根据特征的类间分布判别自身对类别的贡献度,将二者结合作为词间距和类间分布的特征加权模型,称为WDID-TFIDF;

所述步骤1具体按照以下步骤实施:

加载数据集20NewsGroups,导入所需模块,给出GloVe模型,设置训练数据存储路径,编码格式;定义函数,引入英文通用停用词表,对所加载数据集进行分词,将获取的文本内容按行读入文件,使用spacy模块工具进行文本预处理,完成词性标记便于后续信息过滤、统计模型,使用WDID-TFIDF计算特征词权重并生成矩阵;

所述步骤1具体按照以下步骤实施:

给定数据集20NewsGroups,首先,进行包括去停用词、词干词形分析在内的数据预处理过程,所得结果包括位置标识及词频统计数据;其次,将分词后的数据集D={d1,d2,...,da,...,dn}、所属类别集合C={c1,c2,...,ci,...,ck}按行读入,其中da={x1,x2,...,xj,...,xm},xj∈ci,特征词xj对类别ci的类间区分度ID表示为:

取特征词xj在各类别当中的最大值,作为它对该类别的贡献度;

其中,W(xj|ci)的值表示特征词xj对于类别ci的区分能力,特征词xj在ci中出现的频率为TF(xj|ci),不属于类别ci但包含xj的文本数为

对所得WD(xj|c)进行归一化处理:

此时得到特征词xj∈ci的类间区分度值,特征词xj的词间距WD计算为:

distance=Lj-Fj

其中,Lj为特征词xj在文本中最后一次出现的序号,Fj为特征词xj第一次出现的序号,count为分词处理之后的文本分词总数;

对于任意一个特征词xj∈ci,基于词间距和类间贡献度的WDID-TFIDF特征词权重值W(xj)计算为:

按照输入内容读入全部数据,计算各特征词权重,生成di文本表示的权值矩阵

步骤2、根据GloVe模型的自身缺点进行过滤无关词,以提高词向量训练质量;

所述步骤2具体按照以下步骤实施:

选取文本集中对应内容的词向量,其中包括词向量维度、词窗口大小、最小统计次词频;对于词典中的每个词zb,计算与文中其他词zg的cosθ值,当cosθ小于0时加入集合S(m);选择集合S(m)中的前H个词,计算给定窗口大小的上下文中的词l与选取的目标词zg、zb之间的共现概率比值λ;根据共现概率比值过滤生成矩阵中的无关词或噪音词,得到新的共现矩阵M,并输入GloVe中得到新的词向量;

所述步骤2具体按照以下步骤实施:

在GloVe损失函数当中,共现矩阵X中每一个元素Xef表示词f在目标词e的上下文窗口中内出现的次数,为矩阵X在某行的和,即目标词e窗口内所有上下文词出现的总次数,Pef=P(f|e)=Xef/Xe表示词f出现在词e周围的概率,设z1为ice,z2为steam:

当z1,z2与对应上下文中的共同出现词为gas时,在ice出现的情况下gas出现的概率取值为6.6×10-5,在steam出现的情况下gas出现的概率取值为7.8×10-4,在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值为8.5×10-2

当z1,z2与对应上下文中的共同出现词为solid时,在ice出现的情况下solid出现的概率取值为1.9×10-4,在steam出现的情况下solid出现的概率取值为2.2×10-5,在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值为8.6;

当z1,z2与对应上下文中的共同出现词为fashion时,在ice出现的情况下fashion出现的概率取值为1.7×10-5,在steam出现的情况下fashion出现的概率取值为1.8×10-5,在ice出现的情况下fashion出现的概率与在steam出现的情况下fashion出现的概率比值为0.94;

当z1,z2与对应上下文中的共同出现词为water时,在ice出现的情况下water出现的概率取值为3.0×10-3,在steam出现的情况下water出现的概率取值为2.2×10-3,在ice出现的情况下water出现的概率与在steam出现的情况下water出现的概率比值为1.36;

当z1,z2无关,且上下文为不同l时,即l=gas,solid,fashion,water,当l=gas时,gas与ice明显不相关,与steam更相关,在ice出现的情况下gas出现的概率与在steam出现的情况下gas出现的概率比值P(l|ice)P(l|steam)远小于1;当l=solid时,solid和ice相关,而solid和steam不相关,在ice出现的情况下solid出现的概率与在steam出现的情况下solid出现的概率比值远大于1;即引入词l与z1或z2其中之一语义相似度越小时共现概率比值与1的距离越远;但当l=fashion时,fashion与z1,z2都无关,P(l|ice)P(l|steam)接近于1;当l=water时,water与ice和steam都相关,二者的比值也接近于1,即语义越相近的词之间在上下文的贡献概率比值越接近于1;

当ze和zf语义不相似时且已知上下文所包含词l时,从共现概率比值中获取词l是否为无关信息,对于词ze和zf在给定窗口大小的上下文中包含词l时,共现概率比值为:

设词ze和zf不相似,给定上下文词l时,则有:

(1)当共现概率比值λ≈1时,此时l为无关词;

(2)当共现概率比值λ>> 1 或λ<< 1 时,此时l与词ze或zf其中之一语义相似;

因此,选择与词ze不相似的zf过滤无关词,关于词向量相似度的计算方式如下:

其中,为词ze,zf所对应的词向量;

即如果两个词语的余弦值越小,那么两个词语的上下文越不相似,语义相差越远,所以用余弦值来作为选择不相似词的一般公式,从所有与ze的余弦距离小于0的集合S(m)中随机的选择N个不相似的词语zf过滤ze上下文中的无关词,减小共现矩阵中非零元素的数量过滤共现矩阵中的无关词,得到新的共现矩阵M并将其输入GloVe中;

步骤3、根据步骤2所得结果选择步骤1中对应词间距和类间分布的特征加权值并进行点乘,得到加权词向量模型,即为最终得到的文本表示方法,

所述步骤3具体按照以下步骤实施:

根据步骤2得,在da={x1,x2,...,xj,...,xm}文本中特征词xj的词向量为xj=(o1,j,o2,j,...,oq,j,...,ot,j),oq,j是特征词xj的词向量在第q个特征维度上的值,结合步骤1中经计算所得的每个特征词的WDID-TFIDF值,基于WT-GloVe词向量加权模型的文本表示为:

xj′=(o1,j,o2,j,...,oq,j,...,ot,j)·W(xj)

其中,t为特征词xj的词向量维度,最终得到20NewsGroups数据集的基于WT-GloVe词向量构建的文本表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910573695.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top