[发明专利]一种增强文本特征表示的短文本主题挖掘方法在审
申请号: | 201710098008.X | 申请日: | 2017-02-20 |
公开(公告)号: | CN108009187A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 杨群;雷维华;王佳文 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增强 文本 特征 表示 主题 挖掘 方法 | ||
本发明为一种增强文本特征表示的短文本主题挖掘方法,提供一种在短文本进行高效主题建模的方法,属于数据挖掘中的文本挖掘领域。本发明首先将模式挖掘算法引入到文本的特征空间构建中,使用频繁模式挖掘算法在真个语料库级别上挖掘能表征文本特征的频繁模式,然后提出一种基于模式集合的特征表示方法(PSTR)。该表示法克服了基于词袋假设的一元表示的语义间隔问题,以及在短文本的主题挖掘中该表示方法会遭遇的共现模式不足问题。基于在新的模式空间中的表示,提出一种主题同一性指定的建模方法(PSTR‑LDA),在同主题推论阶段中,表示文本特征的模式中的构成词会共享同一个主题指定,该假设更加真实的反应了表示文本的模式间的主题。实施例的结果表明本发明比起其模型,能挖掘更加一致和解释性更好的主题。
1技术领域
本发明涉及一种基于增强文本特征表示的主题建模方法,属于计算机数据挖掘中的文本挖掘领域。
2背景技术
伴随着互联网的发展,网络中的文本数据越来越多。其中,用户自生成内容(user-generated content, UGC),如短博文、在线广告、用户评论,这些数据具有文本长度有限、数据量大、结构松散、主题覆盖 广泛等特点,并且它们背后潜在商业价值巨大,例如,可以从商品的用户评论中挖掘用户对商品的情感评 价倾向,有利于改进商品的销售和用户的广告投放。从大规模短文本数据中发现潜在的主题和总结这些文 档变得非常急迫和重要。
文本挖掘方法在过去已有大量研究,主题模型在常规文本上获得了很大的成功。但是,由于短文本的 特点,直接应用传统主题模型到短文本中,由于稀疏性会带来两个问题:1)比起长文本中充足的用来确定 词之间的共现信息的词频计数,短文本中词之间的共现信息更难确定。2)短文本中有限的上下文信息更难 确定词汇的一词多义和多词一意。另外,在建模短文本时,单个词不能捕获足够的上下文和顺序信息,上 述信息对理解短文本中词的意义却非常重要。在短文本中应用主题模型,了解短文本的精确语义更加重要。
短文本上进行主题建模的研究集中在怎样利用外部信息增强短文本的特征表示。Wikipedia是其中被广 泛利用的外部知识库,有研究者提出利用该知识库生成语义资源扩充原来的基于词袋假设的文本表示,用 来解决短文本表示中的数据稀疏性和语义不足。具体的方法是,首先,从给定的语料库中选择种子短语, 这些短语通过特定的语义相似性计算过后提取出来,然后用某种算法生成文本的语义特征,这些语义特征 是基于种子短语从Wikipedia知识库中得来,然后用上诉语义特征构建文本的特征表示空间,再基于此执 行一些文本挖掘任务,实验表明该方法在聚类或分类任务中效果比基本的文本表示方法有显著的提高,但 同时我们也能看到,该方法存在一个缺点,如果种子短语的选择不恰当,将导致整个后续的特征构建存在 很大的偏差,扭曲文本的原有语义,因此基于该方法的效果会大打折扣。同时,相关的外部知识库别不可 能总是可获取的,这高度依赖数据本身的语义。
3发明内容
3.1发明目的
为了解决短文本中主题建模尤为突出的共现信息和语义信息缺乏的问题,文发明提出一种基于频繁模 式的文本表示方法并基于一种主题指定同一性假设对文本的模式表示进行主题建模。该方法基于以下几点 考虑:首先,主题模型通过文档级别的词的共现信息来发现主题,短文本中缺乏上述共现信息,却可以充 分利用整个语料库级别丰富的词的共现模式。其次,显性地捕获词之间的共现模式,携带词之间的更丰富 的上下文信息,表达更精确的词汇语义。特别地,本发明使用频繁模式挖掘算法在整个短文本集上捕获携 带丰富上下文信息的词之间的共现模式,然后利用这些模式集合来表示文本并在上述增强过的文本表示进 行主题建模。
3.2技术方案
本发明为解决其技术问题采用如下技术方案:具体包含以下几个步骤:
步骤一:在文本挖掘任务中,都需要对文本进行必要的文本预处理,包括常规的大小写转换、移除非 拉丁词汇、移除停用词,以及移除文本中文档词频少于5的词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710098008.X/2.html,转载请声明来源钻瓜专利网。