[发明专利]基于词汇链特征扩展和LDA模型的微博短文本分类方法有效

专利信息
申请号: 201810393067.4 申请日: 2018-04-27
公开(公告)号: CN108920482B 公开(公告)日: 2020-08-21
发明(设计)人: 刘端阳;刘坤;沈国江;刘志;朱李楠;杨曦;阮中远 申请(专利权)人: 浙江工业大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F16/36;G06F40/247
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵;黄美娟
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 词汇 特征 扩展 lda 模型 微博短 文本 分类 方法
【说明书】:

基于词汇链特征扩展和LDA模型的微博分类方法,针对微博文本长度短、内容少、特征稀疏等问题,提出了词汇链特征扩展方法。在《同义词词林》的基础上生成基础词汇链,再利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,而且还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对向量空间模型在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型的主题概率分布来表示微博文本,有效地降低了相似度计算的维度,并且融合了一定的语义特征。本方法综合了词汇链特征扩展和LDA模型的各自的优势,提出了微博分类方法。实验结果表明,这个方法有效地提高了微博文本的分类性能。

技术领域

发明涉及一种微博文本的分类方法。

背景技术

随着微博的普及和发展,它在促进人们交流和沟通的同时也带来了巨大的挑战。日常广泛使用的微博使得信息出现了爆炸式的增长,微博文本的主要特点有:文本篇幅短、内容少、特征稀疏等。由于这些特点,从海量的微博中筛选出用户感兴趣的部分,并将其加以分类,就成为一个研究热点和难点。

微博文本的分类方法主要有两类:一类是基于大规模语料库的方法。这类方法针对微博文本特征稀疏等问题,利用知识库进行概念语义扩展,常用的知识库有WordNet、Wikipedia和《同义词词林》等。采用这种方法可以挖掘文本内部词语之间的潜在关系,扩展微博文本的特征信息,但是对未收录在知识库中的词语就没有作用,使用范围有限。另一类是基于搜索引擎的方法,即使用搜索引擎搜索文本关键词并利用所得内容去扩展微博文本。这种方法能够在一定程度解决微博短文本特征稀疏的问题,但是引入特征的同时不可避免的会引入噪声数据,同时这种借助搜索引擎的文本扩展方法也非常耗时。

近几年来,采用主题模型进行文本分类的方法成为研究热点,其中隐含狄里克雷分配(LDA:Latent Dirichlet Allocation)模型是常用的主题模型。很多研究都利用LDA模型训练得到的主题分布对向量空间模型(VSM:Vector Space Model)进行加权,可以获得良好的分类性能。一些研究则利用LDA模型处理得到的主题概率分布作为文本的向量表示,也有一些研究利用LDA模型来提取文本所隐藏的主题信息。在这些研究中,LDA模型都可以获得较好的效果,但是在微博文本分类领域,LDA模型也无法解决微博文本的特征稀疏问题。

发明内容

本发明克服了上述分类方法的不足,综合了词汇链特征扩展和 LDA模型各自的优势,提供一种基于词汇链特征扩展和LDA模型的微博分类方法。

本发明提出的微博分类方法,首先在《同义词词林》的基础上生成基础词汇链,然后利用基础词汇链对微博文本进行特征扩展。词汇链不仅能够涵盖到被《同义词词林》收录的词语,而且还能涵盖到未被《同义词词林》收录的其它词语,并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对词汇链扩展后的微博语料库进行建模处理,将微博文本映射成主题概念分布,这样不仅有将降低了相似度计算的维度,还融合了一定的语义特征。实验证明,这个方法有效地提高了微博文本的分类性能。

本发明涉及的《同义词词林》是一部汉语分类词典,根据树状层次把所有收录的词条组织起来,共分为大、中、小三类词语,最新版的《同义词词林》包含了近八万条词语。《同义词词林》的词语编码总共八位,前面七位表示词语的五层结构。其中,第一位是大写英文字母,表示词语的第一层;第二位是小写英文字母,表示词语的第二层;第三位和第四位是二位十进制整数,表示词语的第三层;第五位是大写英文字母,表示第四层;第六位和第七位是二位十进制整数,表示第五层。而词语编码的第八位,即词语编码的最后一位,取值为“=”、“#”和“@”,其中,“=”表示词语同义;“#”表示词语相关;“@”表示词语独立,即该词既没有同义词,也没有相关词。例如:“Gb12A01=尊敬崇敬敬重敬爱尊崇”,其中“Gb12A01=”是编码,“尊敬”、“崇敬”、“敬重”等都是该编码所对应的同义词语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810393067.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top