[发明专利]基于内容特征和主题特征的文本分组聚类方法有效
申请号: | 201210285275.5 | 申请日: | 2012-08-10 |
公开(公告)号: | CN102929906A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 卢美莲;李佳珊;王明华;叶小卫;刘金亮;曹一鸣 | 申请(专利权)人: | 北京邮电大学;北京格致璞科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 内容 特征 主题 文本 分组 方法 | ||
技术领域
本发明涉及信息处理技术,尤其涉及一种基于内容特征和主题特征的文本分组聚类方法。
背景技术
文本是信息的主要载体,随着互联网的发展,浏览网络上及时发布的新闻文本成为人们获取信息的重要手段,当前网络上的新闻文本信息数量巨大,为了使人们能够快速、方便地导航和浏览新闻,需要对新闻文本使用文本聚类技术进行聚类。
文本聚类技术能够将文本集自动划分成多个簇,使得处于同一个簇中的文本具有一定的相似性,不同簇中的文本之间的相似性尽可能低。目前的文本聚类方法通常按照以下流程处理:(1)文本特征选择和抽取,(2)文本相似性度量,(3)分组聚类。目前的文本聚类技术主要是基于文本的内容特征或主题特征分别进行聚类,且大多采用向量空间模型来表示文本的内容特征。对于新闻文本而言,文本的内容特征可以很好表达该新闻事件的针对性,但内容特征向量维度很高且具有稀疏性,其中还包含影响聚类效率和准确率的噪声等。而主题特征主要采用主题模型训练的方法来提取,主题特征可以有效避免基于内容特征的聚类中聚类结果过多的问题,但对于新闻事件的针对性不强。
由于内容特征与主题特征的特征数据表达方式不同,无法应用同一种分组聚类的方法基于文本的两种特征数据共同对文本进行分组聚类,目前对新闻文本分组聚类没有很好的解决办法。
发明内容
本发明提供一种基于内容特征和主题特征的文本分组聚类方法,以实现对新闻文本基于内容特征和主题特征依次进行分层次的分组聚类。
本发明提供一种基于内容特征和主题特征的文本分组聚类方法,包括:
提取所述文本的内容特征和主题特征;
将所述主题特征转换为二进制主题特征;
采用相同的分组算法对文本基于所述内容特征和所述二进制主题特征依次进行分组,获得层次化的文本分组结果;
对所述文本分组结果进行聚类。
进一步地,上述文本分组聚类方法,将所述主题特征转换为二进制主题特征,具体可以为:
将主题特征Ti=(w1,w2,...,wm)转换为二进制主题特征Ti′=(w′1,w′2,...,w′m),
其中,θ是用于判定所述新闻文本是否具有第i种主题上的信息的参数。φ是用于将m维的主题特征转换到二进制空间上的转换参数。
本发明通过对主题特征向量的转化,可以使用相同的分组方法和聚类方法对文本基于内容和主题两种特征依次进行分组聚类,应用本发明提供的分组聚类方法对新闻文本进行聚类,可以令新闻文本的聚类结果在兼顾新闻事件的针对性的基础上避免聚类结果过多的缺陷。
附图说明
图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图;
图2为本发明基于内容特征和主题特征的文本分组聚类方法实施例二的流程图;
图3为本发明基于内容特征和主题特征的文本分组聚类方法实施例三的流程图;
图4为本发明基于内容特征和主题特征的文本分组聚类方法具体实施例的流程图。
具体实施方式
图1为本发明基于内容特征和主题特征的文本分组聚类方法实施例一的流程图,如图1所示,本实施例对文本分组聚类的方法可以包括:
步骤S101,提取文本的内容特征和主题特征。
具体地,在提取文本的内容特征和主题特征之前,还需要对文本进行分词处理,上述分词技术为本领域技术人员可知悉的,此处不再赘述。经过分词处理后,将每篇新闻文本分别转化为文本的词语序列,通过选择短语长度,将词语序列转化成内容词语序列,使用特征提取技术将其转化为二进制空间向量形式,即二进制内容特征向量。通过对词语序列进行主题模型训练,生成主题特征向量。
优选地,在本实施例中使用Shingling算法将文本的词语序列转化为shingle片段,将shingle片段加入shingle库,用shingle库中的编号和该shingle在该文本中出现的次数来生成一个该文本的空间向量,用该空间向量表示文本的内容特征,并将其转化到二进制空间上,生成二进制内容特征向量。
优选地,在本实施例中使用LDA主题模型对文本的词语序列进行训练,首先给定主题数,应用LDA主题模型生成该文本的主题特征向量,主题特征向量中的每个值代表该文本在每一主题下的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;北京格致璞科技有限公司,未经北京邮电大学;北京格致璞科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210285275.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法