[发明专利]一种增强文本特征表示的短文本主题挖掘方法在审
申请号: | 201710098008.X | 申请日: | 2017-02-20 |
公开(公告)号: | CN108009187A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 杨群;雷维华;王佳文 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 增强 文本 特征 表示 主题 挖掘 方法 | ||
1.一种基于模式集合的短文本主题建模方法,其特征在于包括如下步骤:
步骤一:在文本挖掘任务中,都需要对文本进行必要的文本预处理,包括常规的大小写转换、移除非拉丁词汇、移除停用词,以及移除文本中文档词频少于5的词汇。
步骤二:对处理过的文本数据,构建文档词频矩阵(布尔矩阵),其中矩阵的值为当词在文档中出现时为1否则为0。该矩阵用于频繁模式挖掘,同时为了计算模式在表示中的权值,还收集了文档词频的计数信息。这一步中会利用不同的模式挖掘算法在文档集中挖掘不同种类的模式集合。
步骤三:从整个语料库级别挖掘得到模式集合后,利用这些携带语义信息的模式作为特征表示文本。
步骤四:得到文本的特征表示后,基于一种模式的构成词共享同一个主题指定假设,对在增强的模式表示特征空间中对文档进行主题建模,挖掘文本集潜在的主题。
上述步骤一中,假设所处理的是英文词汇,因此需要将所有的单词统一转换为小写形式。像数字、符号等的非英文字符表示的特征没有任何意义需要移除。同样,像”is”、”we”等称为停用词,用来表示文本特征也不具有区分性,所有也需要移除。最后,移除了文本中文档词频少于5的词汇,因为太低的频率的词太稀少也没有意义。
步骤二中,词频矩阵中需要考虑特征也即词的生成方法。特征的集合称为词典。词典中的每个特征组成了一个与文档集对应的数值型向量。每一行是一个文档,每一列表示一个特征(词)。通常,将每一个单一的词作为一个特征,这里为了挖掘频繁项集,使用布尔规则表示文本的特征,即文档中词在特征中出现则为1否则为0。为了使用不同的模式挖掘词单元的共现信息,在频繁项集的挖掘框架中,本发明将每一个短文本看作一个事务(transaction),每个词单元作为一个项(item),项集的最小支持度阈值代表了频繁模式的最小发生频次,需要在执行算法之前给定(值在0到1之间),算法会根据挖掘支持度大于该值的集合并自动停止。本发明使用了不同的模式挖掘算法,FPGrowth算法挖掘普通模式。PrefixSpan挖掘序列模式,使用算法RPlocal挖掘压缩模式。
上述步骤三中,为了利用步骤二中挖掘得到的模式集合,形式化地我们假定如下定义:
有了从文本中挖掘的模式集合后,一个文档d
其中模式p
其中len(p)计算模式p的长度,sup(p)得到该模式的支持度。这个公式的直觉表达是一个在文档中的模式的频次由组成该模式的词的频次的均值和该模式的支持度共同构成。这种计算同时从语料级别和文档级别考虑了一个模式在构成文本特征中的重要程度。
对于一个文档d
给定一个文档集组成的语料,算法输入一个文档集合D以及给定用于挖掘频繁模式的参数最小支持度和最大模式长度。输出在模式空间表示的文档向量集合:
在算法的第一行我们使用了普通的模式挖掘算法FP-growth挖掘得到频繁模式,但还可以应用更多更丰富的模式挖掘算法来得到不同的模式集合。
上述步骤四中,每个文档表示成了频繁模式的集合,这提供了一种新的文本表示。称为基于模式集合的文本表示(FPTR),这些模式是一些共同高频出现在语料库中的词的集合。为了准确地在新空间中的基于模式表示的文本进行主题建模,这里假设组成一个模式的构成词有很高的概率应该共享同一个隐藏主题。本节提出一种新奇的概率主题模型:PSTR-LDA,该模型加入了模式的主题变量限制,并使用收缩的吉布斯采样算法进行参数推论。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710098008.X/1.html,转载请声明来源钻瓜专利网。