[发明专利]一种基于WT-GloVe词向量构建的文本表示方法有效
申请号: | 201910573695.5 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110348497B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 姚全珠;古倩;费蓉;赵佳瑜;李莎莎 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/20 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王蕊转 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 wt glove 向量 构建 文本 表示 方法 | ||
本发明公开了一种基于WT‑GloVe词向量构建的文本表示方法,首先通过对网络文本自身特征的词间距计算评估其重要程度,根据特征的类间分布判别自身对类别的贡献度,将二者结合作为词间距和类间分布的特征加权模型,称为WDID‑TFIDF;然后根据GloVe模型的自身缺点进行过滤无关词,以提高词向量训练质量;最后根据结果选择对应词间距和类间分布的特征加权值并进行点乘,得到加权词向量模型,即为最终得到的文本表示方法。本发明解决了现有技术中存在的传统的文本表示方法计算复杂或者文本信息表示不够全面的问题。
技术领域
本发明属于自然语言处理、数据挖掘和文本分类技术领域,具体涉及一种基于WT-GloVe词向量构建的文本表示方法。
背景技术
高速发展的互联网行业促使社交网络、移动互联网等产业的大量出现,全球范围内持续增长的网站数量导致爆炸式信息量的产生。电子邮件的垃圾信息过滤、问答系统的提问问题归类、搜索引擎中查询信息的识别、购物网站的商品正负面情感判断、政府系统中群众观点分析、社交媒体的新话题发现以及网络舆情监测等都需要超大规模文本数据集处理技术的不断更新。与此同时,还对计算机的存储及处理能力提出了更高的标准。大量文本数据中的超常潜在知识,如何高效处理并组织海量信息,帮助用户高效找到所需内容是当前一大挑战。文本分类作为信息数据处理的关键技术,已成为学术界的研究热点,在多个领域得到广泛应用。如何准确表示文本信息并构造合适分类模型已成为了分类任务的两大核心问题。
传统的文本表示通常是基于空间向量模型亦或是TF-IDF模型,它们通过学习大量文本特征提供了对文本的简单表达,该模型为低频词赋予相对较高的权重,为较高频词赋予了相对较低的权重。根据信息理论,这种模式权衡了词汇中每个词所传达的信息,加权方法包括文档中每个词频率的对数重新缩放。最后,该对数通过语料库线性化了词类型的指数分布。
随着数据规模的扩大,导致文本特征维度可达到成万维甚至更高。作为经典文本表示方法之一的向量空间模型,得到的文本向量高维并稀疏。且其特征表示的语义信息具有原子性,无法进行特征间的语义关系度量。在基于向量空间模型表示的文本形式中,维度代表了特征数量。
文本分类从提出至今已然成为备受关注的研究热点和领域,诸多学者在文本表示、空间维度及分类器等不同方面展开了深入的探讨。总结起来,关于分类方法的改进大致从两个方向入手:其一,基于传统文本分类技术的改进;其二,基于神经网络文本分类方法的改进。
发明内容
本发明的目的是提供一种基于WT-GloVe词向量构建的文本表示方法,解决了现有技术中存在的传统的文本表示方法计算复杂或者文本信息表示不够全面的问题。
本发明所采用的技术方案是,一种基于WT-GloVe词向量构建的文本表示方法,具体按照以下步骤实施:
步骤1、通过对网络文本自身特征的词间距计算评估其重要程度,根据特征的类间分布判别自身对类别的贡献度,将二者结合作为词间距和类间分布的特征加权模型,称为WDID-TFIDF;
步骤2、根据GloVe模型的自身缺点进行过滤无关词,以提高词向量训练质量;
步骤3、根据步骤2所得结果选择步骤1中对应词间距和类间分布的特征加权值并进行点乘,得到加权词向量模型,即为最终得到的文本表示方法。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
加载数据集20NewsGroups,导入所需模块,给出GloVe模型,设置训练数据存储路径,编码格式;定义函数,引入英文通用停用词表,对所加载数据集进行分词,将获取的文本内容按行读入文件,使用spacy模块工具进行文本预处理,完成词性标记便于后续信息过滤、统计模型,使用WDID-TFIDF计算特征词权重并生成矩阵。
步骤1具体按照以下步骤实施:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910573695.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸图像融合的方法及系统
- 下一篇:一种缝纫线迹缺陷检测方法