[发明专利]一种针对千万级规模微博文本的观点挖掘方法有效
申请号: | 201410472954.2 | 申请日: | 2014-09-16 |
公开(公告)号: | CN104281653B | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 吴俊杰;伍之昂;曹杰 | 申请(专利权)人: | 南京弘数信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 陈扬 |
地址: | 210000 江苏省南京市经*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种针对千万级规模微博文本的观点挖掘方法,首先,对某一事件或话题下的微博进行分词,在分词的基础上,去掉其中的垃圾文本;再根据分词的结果对微博文本进行关键词对的提取;然后对提取出的关键词对进行聚类;最后根据每一类的关键词对,从微博文本中提取出该类下能代表事件方面或用户观点的文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,处理千万级规模的微博文本,具有高效性、鲁棒性和易用性等优点。适用于对千万级规模的微博文本的方面分析,在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。 | ||
搜索关键词: | 微博 文本 分词 观点分析 垃圾文本 信息传播 用户观点 中文分词 高效性 鲁棒性 挖掘 聚类 搭配 汉语 扩散 监控 话题 语言 应用 分析 | ||
【主权项】:
1.一种针对千万级规模微博文本的观点挖掘方法,其特征在于:该方法对千万级规模的微博文本进行关键词对的提取,再对关键词对进行聚类,最后根据聚类结果对代表性文本进行筛选,具体步骤如下:1)对千万级规模微博文本进行简单过滤,将其中的无意义文本去掉;2)利用中文分词工具,对简单过滤之后的微博文本进行分词和词性标注;分词的目的是为了将微博文本转化成一个个词语;根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词;因此,在分词的过程中需要对每一个词语进行词性标注;需要对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选;词性筛选是指将分词结果中的名词、形容词、动词保留下来,将其他词性的词语去掉;词频筛选是指将分词结果中的低频词和高频词去掉;低频词很可能是只在少数微博文本中出现的,不具有代表性;高频词有两种可能:一种是大部分微博都出现的词语;另一类是错误分词以后产生的分词碎片;3)利用分词结果,将词作为属性对文本进行分类,以识别出其中的广告文本,并将广告文本过滤掉;4)从剩下的微博文本中提取关键词对;5)对提取出的关键词对进行聚类;6)根据聚类结果,对微博文本进行分类;7)选出每一类中能代表事件方面或用户观点的微博文本;步骤1)中,简单过滤具体如下:微博文本存在一类文本,这一类文本没有包含某话题或事件的一个方面,也没有包含用户的意见或观点倾向;这类文本可以归纳为以下四类:(1)只包含“转发微博”的文本;(2)以“http://”开头的文本;(3)内容为空的文本;(4)含有多于5个“@”符号的文本;第一类文本是发布该微博的用户单纯地对其他用户所发的微博进行转发,而没有加上自己对这条微博的意见或观点倾向,过滤方法:文本匹配;第二类微博多为参加某个活动而发布的,过滤方法:正则表达式;第三类微博有可能是由于传输数据过程中的某些原因而导致文本字段缺失的微博,过滤方法:字符串长度;第四类微博多为参加某个活动而发布的,过滤方法:字符串函数;由于这四类微博有着比较明显的文本特征,因此,只需采用简单的规则即可实现这四类微博的过滤;步骤4)中,关键词对的提取是在高频词的基础上进行的,首先,对经过上一步骤保留下来的微博文本进行词频统计,选取词频排名前K个词语作为候选的高频词;再根据高频词的位置,选取与高频词紧邻的前一个和后一个词语,构成高频词和前后词语的词对;然后,统计每一个词对在微博文本中出现的次数,根据如下公式计算每一个词对的权重:W=Fg×Nc词网中的边的权重包括核心词权重Fg和词对共现权重Nc两个部分;核心词权重是指这对词对中高频词的权重,高频词出现的次数越多,越有可能形成这样一条边,说明核心词的权重越高;核心词权重用高频词的频率来表示;词对共现权重是指这两个词同时紧挨着出现的权重,用这两个词共现的次数来表示;在计算每一个词对的权重之后,根据权重对词对进行排序,选取权重排序前n个词对作为这些微博文本中的关键词对。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京弘数信息科技有限公司,未经南京弘数信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410472954.2/,转载请声明来源钻瓜专利网。
- 上一篇:远端进程操作方法及系统
- 下一篇:相机模块