[发明专利]基于词汇链特征扩展和LDA模型的微博短文本分类方法有效
申请号: | 201810393067.4 | 申请日: | 2018-04-27 |
公开(公告)号: | CN108920482B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 刘端阳;刘坤;沈国江;刘志;朱李楠;杨曦;阮中远 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/247 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词汇 特征 扩展 lda 模型 微博短 文本 分类 方法 | ||
基于词汇链特征扩展和LDA模型的微博分类方法,针对微博文本长度短、内容少、特征稀疏等问题,提出了词汇链特征扩展方法。在《同义词词林》的基础上生成基础词汇链,再利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,而且还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对向量空间模型在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型的主题概率分布来表示微博文本,有效地降低了相似度计算的维度,并且融合了一定的语义特征。本方法综合了词汇链特征扩展和LDA模型的各自的优势,提出了微博分类方法。实验结果表明,这个方法有效地提高了微博文本的分类性能。
技术领域
本发明涉及一种微博文本的分类方法。
背景技术
随着微博的普及和发展,它在促进人们交流和沟通的同时也带来了巨大的挑战。日常广泛使用的微博使得信息出现了爆炸式的增长,微博文本的主要特点有:文本篇幅短、内容少、特征稀疏等。由于这些特点,从海量的微博中筛选出用户感兴趣的部分,并将其加以分类,就成为一个研究热点和难点。
微博文本的分类方法主要有两类:一类是基于大规模语料库的方法。这类方法针对微博文本特征稀疏等问题,利用知识库进行概念语义扩展,常用的知识库有WordNet、Wikipedia和《同义词词林》等。采用这种方法可以挖掘文本内部词语之间的潜在关系,扩展微博文本的特征信息,但是对未收录在知识库中的词语就没有作用,使用范围有限。另一类是基于搜索引擎的方法,即使用搜索引擎搜索文本关键词并利用所得内容去扩展微博文本。这种方法能够在一定程度解决微博短文本特征稀疏的问题,但是引入特征的同时不可避免的会引入噪声数据,同时这种借助搜索引擎的文本扩展方法也非常耗时。
近几年来,采用主题模型进行文本分类的方法成为研究热点,其中隐含狄里克雷分配(LDA:Latent Dirichlet Allocation)模型是常用的主题模型。很多研究都利用LDA模型训练得到的主题分布对向量空间模型(VSM:Vector Space Model)进行加权,可以获得良好的分类性能。一些研究则利用LDA模型处理得到的主题概率分布作为文本的向量表示,也有一些研究利用LDA模型来提取文本所隐藏的主题信息。在这些研究中,LDA模型都可以获得较好的效果,但是在微博文本分类领域,LDA模型也无法解决微博文本的特征稀疏问题。
发明内容
本发明克服了上述分类方法的不足,综合了词汇链特征扩展和 LDA模型各自的优势,提供一种基于词汇链特征扩展和LDA模型的微博分类方法。
本发明提出的微博分类方法,首先在《同义词词林》的基础上生成基础词汇链,然后利用基础词汇链对微博文本进行特征扩展。词汇链不仅能够涵盖到被《同义词词林》收录的词语,而且还能涵盖到未被《同义词词林》收录的其它词语,并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对词汇链扩展后的微博语料库进行建模处理,将微博文本映射成主题概念分布,这样不仅有将降低了相似度计算的维度,还融合了一定的语义特征。实验证明,这个方法有效地提高了微博文本的分类性能。
本发明涉及的《同义词词林》是一部汉语分类词典,根据树状层次把所有收录的词条组织起来,共分为大、中、小三类词语,最新版的《同义词词林》包含了近八万条词语。《同义词词林》的词语编码总共八位,前面七位表示词语的五层结构。其中,第一位是大写英文字母,表示词语的第一层;第二位是小写英文字母,表示词语的第二层;第三位和第四位是二位十进制整数,表示词语的第三层;第五位是大写英文字母,表示第四层;第六位和第七位是二位十进制整数,表示第五层。而词语编码的第八位,即词语编码的最后一位,取值为“=”、“#”和“@”,其中,“=”表示词语同义;“#”表示词语相关;“@”表示词语独立,即该词既没有同义词,也没有相关词。例如:“Gb12A01=尊敬崇敬敬重敬爱尊崇”,其中“Gb12A01=”是编码,“尊敬”、“崇敬”、“敬重”等都是该编码所对应的同义词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810393067.4/2.html,转载请声明来源钻瓜专利网。