[发明专利]舆情监测分析方法在审
申请号: | 201611176739.3 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106649270A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 唐军;赵冬;王雪萍;伍媛媛 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/02 |
代理公司: | 成都虹桥专利事务所(普通合伙)51124 | 代理人: | 李凌峰 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 监测 分析 方法 | ||
技术领域
本发明涉及信息技术,特别涉及互联网大数据分析技术。
背景技术
在大数据时代,以往日常生活里那些无法共享、不可计量的信息都被数据化,人们可以通过互联网获取信息,参与讨论和表达意见,一方面,对于企业的品牌产品等相关信息的意见也纷纷通过互联网信息进行表达和传递,形成网络舆论;另一方面,对于日常生活中接触到的产品,人们也倾向于通过互联网来进行产品信息的查询,包括其他用户的评论、专业网站评估及门户网站的广告等等,与此同时,用户也可以发布对企业或产品的评估。网络信息的快速传播和扩散,可能产生巨大的舆论力量。因此,在身处于大数据时代的企业必须充分利用数据的价值,全面挖掘和监控互联网数据信息,以便于对产品进行改良、创新、更换以及其他企业级的决策,维护品牌形象,扩大品牌影响力,最终促进企业的竞争力。
由于来自互联网海量数据格式的多样性,传统人工采集、处理数据方式已经难以胜任。虽然目前市面上存在很多舆情分析软件系统,但是其都没有利用舆情信息专门深入细致的针对产品、生产商的竞争力作出定量评测。生产商、产品乃至产品属性的口碑、竞争力是隐藏在海量的舆情数据中的非常有价值的信息。产品舆情分析的目标不单单是对相关产品的主题、热点进行解析、跟踪、预测及预警,更重要的是深入的解剖出整个行业市场中每家厂商的每件产品的相对竞争力,并将其量化使得整个行业的产品的优胜劣汰能够定性定量的得到清晰的展现,同时还能标定出产品间的优劣点。
发明内容
本发明的目的是要解决目前舆情分析软件系统都没有利用舆情信息专门深入细致的针对产品、生产商的竞争力作出定量评测的问题,提供了一种舆情监测分析方法。
本发明解决其技术问题,采用的技术方案是,舆情监测分析方法,其特征在于,包括以下步骤:
步骤1、通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储;
步骤2、针对所存储的结构化数据,自动对其进行分类、聚类、生成摘要及名称识别,并进行正负性质预判;
步骤3、输出并根据需求呈现结构化数据。
具体的,步骤2中,所述正负性质预判是指对评论信息进行文本情感分析。
进一步的,所述对评论信息进行文本情感分析的方法为:
步骤201、针对不同的商品类型建立不同的文本情感分析模型;
步骤202、判断该评论信息所属商品的类型,选择该商品类型对应的文本情感分析模型进行分析。
具体的,步骤201中,所述针对不同的商品类型建立不同的文本情感分析模型中,其文本情感分析模型的建立方法为:获取已有的多个针对某一商品类型的评论信息作为训练集,在训练集的评论信息中进行中文分词操作,得到多个候选词,获取每个候选词对应的情感倾向,将候选词作为特征建立文本情感分析模型。
再进一步的,所述获取每个候选词对应的情感倾向的方式为:判断候选词与一般情感基准词词典中各情感基准词之间的语义距离,确定候选词的情感倾向。
具体的,所述获取每个候选词对应的情感倾向的方式为:人工建立标记情感语料库,将候选词与人工建立的标记情感语料库进行匹配,确定候选词的情感倾向。
再进一步的,步骤202中,在分析时,还提取各评论信息中的候选词并进行统计排序,删除文本情感分析模型中低效和/或无效的特征。
具体的,步骤2中,还对所存储的结构化数据进行清洗,所述清洗为对离群数据及明显不合理的数据进行剔除。
本发明的有益效果是,在本发明方案中,通过上述舆情监测分析方法,可对评论信息自动进行分析,从而得出针对产品或生产商的竞争力所作出的定量评测,为生产商或商品开发人员提供参考,提升产品研发效率和针对性。
具体实施方式
下面结合实施例,详细描述本发明的技术方案。
本发明所述舆情监测分析方法为:首先通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储;然后针对所存储的结构化数据,自动对其进行分类、聚类、生成摘要及名称识别,并进行正负性质预判;最后输出并根据需求呈现结构化数据。
实施例
本发明实施例的舆情监测分析方法,其包括以下步骤:
步骤1、通过分布式网络爬虫技术实时抓取各电商网站商品及评论信息,利用模板提取其中的结构化数据进行存储。
本步骤中,分布式网络爬虫技术为现有较为通用的一种信息获取技术,此处不再详述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611176739.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车座椅(后排)
- 下一篇:儿童安全座椅(CC01)