[发明专利]一种基于微博分析电视节目收视情况的方法有效
申请号: | 201310328471.0 | 申请日: | 2013-07-31 |
公开(公告)号: | CN103425755A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 王永恒;杜凯;王乐;袁志坚;付伟;陈颖文 | 申请(专利权)人: | 王永恒 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀 |
地址: | 410008 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分析 电视节目 收视 情况 方法 | ||
1.一种基于微博分析电视节目收视情况的方法,其特征在于,包括以下步骤:
(1)构建词库:从搜狗细胞词库下载词库,将下载的词库组合在一起构成电视领域基本词库,并定期更新;
(2)建立微博-电视节目映射:首先建立节目样本库,根据样本特征词提取每日微博,对获取的微博进行过滤,采用数据分析开源工具中的文本处理包进行文本分类,由于文本处理包不支持中文,先把中文分词加入空格,“模拟”英文来实现分类;
(3)数据分析:对步骤(2)建立的微博-电视节目映射分别进行每日分析和多维分析,所述每日分析包括情感分析、词语特征分析和主题分析、每日基本统计以及网络特征分析;
(4)可视化结果展现:通过报表形式和图形形式将步骤(3)分析的结果展现出来。
2.根据权利要求1所述的基于微博分析电视节目收视情况的方法,其特征在于,步骤(2)中,所述建立节目样本库的方法,首先根据节目关键词,使用微博的搜索接口进行搜索,获取初始节目样本库;然后采用人工的方式,对初始节目样本库进行过滤,将过滤出的微博标注为“相关”和“不相关”两类,并将“相关”和“不相关”两类微博建立节目样本库微博,每个节目的样本库中要求“相关”的微博不少于2万条,“不相关”的微博不少于5000条;
所述提取每日微博的方法,首先使用开源工具数据分析开源工具中的中文分词工具包对电视节目样本库中的每条微博进行中文分词处理;然后使用数据分析开源工具中的挖掘频繁项集工具包从分词后的微博获取频繁词集,忽略长度为1的项集,并去掉支持度小于α的词集,α是一个能调的参数,能控制最终频繁词集的大小,通过调整α使最终频繁词集不超过200个项;然后使用节目关键词及获取的频繁词集,利用微博的搜索接口获取每日微博内容,同时获取微博的作者的地域、性别、年龄和发布时间;
所述微博过滤的方法,首先对样本和待分类的微博分别进行分词处理,然后合并到同一个文本文件;然后使用文本分析工具创建文本词频特征矩阵;然后使用文本处理包训练模型。
3.根据权利要求1所述的基于微博分析电视节目收视情况的方法,其特征在于,步骤(3)中,所述情感分析的方法是采取情感词汇分析和机器学习相结合的方法,首先建立情感倾向性词库,以开源项目用于分析文本间相似度的开源工具中的中文倾向性词库为基本词库,以人工方式建立不少于2万条的情感微博样本库,所述情感微博样本库包含“喜欢”和“不喜欢”两类标签,“喜欢”和“不喜欢”的微博条数各占一半,采用数据分析开源工具中的中文分词工具包对情感微博样本库进行频繁词集挖掘,根据频繁词集,采用人工核对的方式来挑选基本情感词库,同时把微博中的表情符号加入到情感词库中,最终形成完整的情感倾向性词库;然后基于情感词分析建立情感分类的样本库,抽取至少5万条的微博,基于情感词对微博进行情感打分;然后进行基于机器学习的情感分类器训练,对建立好的情感分类样本库进行分词并使用中文分词工具包建立词频矩阵,然后进行贝叶斯分类器、支持向量机分类器和最大熵分类器的训练,对从待分析的数据中随机抽取的2万条数据的准确度和召回率进行测试,选择相适应的分类器;最后基于机器学习进行并行情感分类,按照节目把微博数据划分到多个计算结点,使用选择好的分类器并行进行微博情感分类,最后把分类的结果汇总并写入数据仓库;
所述词语特征分析和主题分析的方法是基于并行频繁词集挖掘算法的基本原理,根据频繁项集把微博划分为互不相交的子集,首先进行数据划分,获取频繁一项集,根据一项集把微博划分为多个不相交子集,把不相交子集均匀地划分到所有的计算结点上;然后构建项集链表,在项集链表中,第一项相同的微博作为一个链表连接起来,链表的头保存在一个头表里;然后并行挖掘频繁词集,每个计算结点处理自己的项集链表,逐一挖掘头表中每项所对应的子集,要挖掘第一个子集,包含a的子集,称为a子集,能从链表中单独提取出a的队列,对a的队列中的微博采用划分的方法递归挖掘,把结果加上前缀a就得到a子集,微博的频繁词集能直接进行展示,用户能看到每个节目对应的热门词汇,同时频繁词集也是下一步进行话题聚类的基础;
所述微博主题分析是在同一个节目的微博中,根据讨论内容划分为不同的主题,采用基于频繁词集的聚类方法进行主题分析;首先进行文本特征提取,采取词语特征分析和主题分析获取的频繁词集作为文本特征,每个微博表示为一个向量{t1:s1,t2:s2,..,tn:sn},其中ti为频繁词,si为对应的支持度;其次进行初始类划分,对频繁词集进行筛选,去掉无意义的频繁词集,把包含每个频繁词集的微博划分到一类中,并用相应的频繁词集作为该类的表示;然后进行基于图书馆准则的类调整;
所述每日基本统计是对每天的微博统计数据进行汇总,讨论某个节目的总人数、每个地区讨论某个节目的人数、男性讨论某个节目的人数,原始数据存储在数据库中,通过聚集查询实现统计,原始数据存在文件中,通过与数据统计类型相适配的并行计算方法实现统计,最终把统计结果保存到本地数据仓库内;
所述网络特征分析的方法,首先进行粉丝覆盖分析,用于了解明星的粉丝和节目收视情况之间的关系;然后进行观众过渡分析,当电视节目更换时,通过观众过渡分析可以了解节目更换后收视人群的变化;
所述多维分析的方法是通过分析型的SQL语句实现的,从不同角度了解电视节目的收视情况,能根据用户的定制,每周、每月、半年、一年自动进行,也能由用户随时选择不同的维度进行实时分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王永恒,未经王永恒许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310328471.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三工双向光收发模组
- 下一篇:一种用于板上芯片LED封装结构