[发明专利]一种电力新闻数据采集系统有效
申请号: | 201810856017.5 | 申请日: | 2018-07-31 |
公开(公告)号: | CN109101597B | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 黄颖;孟肖虎;齐丰 | 申请(专利权)人: | 中电传媒股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/9535;G06F16/35;G06F16/957;G06F16/958;G06F17/27 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 李中强 |
地址: | 100053 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种电力新闻数据采集系统,包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中信息采集单元包括:定向抓取子单元,搜索引擎子单元,来源及采集频率子单元;信息处理单元包括:垃圾信息过滤子单元,智能去重子单元,HTML内容提取子单元,和快照保存子单元。舆情分析单元包括:文章权重计算子单元,传播轨迹分析子单元,自动分类与情感分析子单元,相似文章算法子单元和媒体覆盖子单元,舆情展示单元,包括WEB客户界面子单元,舆情预警子单元,舆情分析报告子单元。本发明实现在电力行业内的海量信息获取、主题思想内容自动提取、重大新闻话题自动聚类、排序和检索结果自动聚类等功能。 | ||
搜索关键词: | 子单元 舆情分析 新闻数据采集 信息采集单元 信息处理单元 展示单元 自动聚类 垃圾信息过滤 抓取 采集频率 轨迹分析 海量信息 检索结果 快照保存 情感分析 权重计算 搜索引擎 重大新闻 主题思想 自动分类 自动提取 算法 排序 面子 预警 智能 传播 覆盖 话题 | ||
【主权项】:
1.一种电力新闻数据采集系统,其特征在于:所述的电力新闻数据采集系统包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中:信息采集单元:用于监测站点及关键词,进一步包括:定向抓取子单元:可对人工定义的15万重点站点中的新闻、论坛、博客实现全面的抓取,同时对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取;搜索引擎子单元:自动跟踪多个搜索引擎的搜索结果,对系统抓取进行补充,确保信息全面无遗漏;来源及采集频率子单元:自定义需要重点监测的信息,设定采集的栏目、URL、更新时间、扫描间隔,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地;信息处理单元:用于对接收的信息进行处理,进一步包括:垃圾信息过滤子单元:基于机器学习的垃圾过滤机制可以自动过滤广告、水帖无效垃圾信息;智能去重子单元:根据文档内容的匹配程度确定是否重复、去重的级别;HTML内容提取子单元:自动提取任意复杂网页中的标题、内容、作者、发布时间信息,自动跟踪文章分页;对于论坛信息自动分析主帖、回帖以及作者信息;快照保存子单元:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子;舆情分析单元:进一步包括:文章权重计算子单元:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息;根据文章自身的权重,与客户关系,以及其他权重因子最终生成权重值,最终的权重值=a*文章自身的权重+b*与客户关系的权重+c*其他权重因子,其中,a、b、c分别为影响因子各自的权重系数;通过以上方式计算出文章权重级别后,再进行权重级别的定义,首先将信息文章分为5个级别选项,从级别1到级别5,其中级别5的文章信息权重为最高,级别1:文章权重小于1的;级别2:文章权重在1‑2.8之间的,包含1;级别3:文章权重在2.8‑4.8之间的,包含2.8;级别4:文章权重在4.8‑6之间的,包含4.8;级别5:重点关注的和文章权重在6以上的,包含6;传播轨迹分析子单元:系统可以对于一段时间内的舆情信息走势进行分析展示,同时可以以不同的载体论坛、新闻分类呈现;自动分类与情感分析子单元:将自然语言处理技术NLP应用于舆情监测领域,对信息精准分类并自动做情感分析;包括:自动分类,使用语料训练统计量 与代码词表模型混合算法,计算过TF‑IDF后,再对指定类别Class中出现的所有单词W计算其权重Weight,具体分为以下步骤:步骤一:导入训练文档步骤:Step11,从训练集中读取文档;Step12,提取已读取文档的内容及其类别;Step13,对所有需要分类的文章进行分词,不要进行词性标注,分词后的文件名以.seg为扩展名,保存到指定的文件夹中;步骤二:统计词频步骤:Step21,对训练文档进行分词与词性标注处理,词性标注的后的文件名以.pos为扩展名,保存到指定的文件夹中;Step22,类别特征抽取;Step221统计要处理的文件,指定训练目录下所有的.pos文件;Step222统计这些文件的词频TF,具体为词出现的总次数、逆向文档频率IDF,具体未出现该词的文档数目;Step23对指定类别Class中出现的所有单词W计算其权重Weight;步骤三:计算词权重步骤:Step31,计算训练文档总数N;Step32,计算指定类别Class中出现单词W的文档数目A;Step33,计算除指定类别Class外,其他所有类别中出现单词W的文档数目B;Step34,计算指定类别Class中没有出现单词W的文档数目C;Step35,计算除指定类别Class外,其他所有类别中没有出现单词W的文档数目D;采用如下公式计算单词W在类别Class中的权重Wweight=N×(A×D‑B×C)2/((A+B)×(C+D)×(A+C)×(B+D));Step36对每类别的词按权重从大到小排序;Step37提取权重最大的前M个词为类别的特征词,为500或2000;步骤四:优化类别特征步骤:Step41设定特征数目num,类别名称name,任意选择一词;Step42,人工介入训练结果集,机器生成的训练结果集与语料确定类的强度有关,当语料不能非常好的确定分类或者认为机器训练结果可以进行优化的时候,也可以人工干预结果集,调整对应词权重;步骤五:分类流程步骤Step51取各类别特征向量,作为各类别的中心,各分量的值为各特征词在类别中的权重;Step52对需要分类的每一篇文章,按照各类别特征向量的分量顺序进行词频统计,得到文档与特征向量对应的文档向量,分量的值为特征词的词频;Step53计算所有文档与各中心的距离,并按距离大小将距离最小的向量分配到该类中,此处的距离以欧几里德距离计算,即两向量的夹角余弦;Step54将分类后的文档存储到指定位置;准确率、召回率的计算:查准率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比,普遍表示为:查全率=(检索出的相关信息量/系统中的相关信息总量)x100%;召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;相似文章算法子单元:基于自然语言处理技术,系统根据文章内容相似程度 计算相似文章,方便获取同一内容文章的所有传播网站:(1)判断相似度的业务流程首先从新闻集合中,抽取文档特征,使用HAC聚类算法,计算得到候选话题集合,再从历史话题库中使用SinglePass聚类算法,计算其最大相似度阈值是否小于预定阈值,如果是的话生成新话题,再使用DCF‑FPGrowth标签生成算法,进行展示;如果最大相似度阈值大于KNN文本分类算法,则统计与候选话题相关文档并入历史话题所占有的比例,若比例大于预定阈值,则并入历史话题,否则生成新话题;(2)相似度计算公式首先,先把文章进行分词,把每个词转换成hash值,具体为64位,把所有词的hash值,按位相加,计算出整篇文章的simhash值:接着,把每个词的hash值,按位相加;位值为1,则加1;位值为0,则减1,计算后,对应64位,每位都有个合计数值;合计数值大于0的位,设置为1;小于等于0的位,设置为0;这样文章的64位hash值,就计算出来了;最后,用文章的simhash值,计算相似性:按位比较2篇文章的simhash值,计算不相同的位的数量,如果两篇文章的海明距离<=3,则认为2篇文章相似;媒体覆盖子单元:系统可以对于监测信息的媒体类型情况进行展示,同时对于信息的主要传播媒体自动识别,进行整合分析,以图表呈现;舆情展示单元,进一步包括:WEB客户界面子单元:基于云计算模式,用户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解;客户界面包含了舆情走势、舆情详细信息、最新微博信息、载体覆盖情况主要内容,并以列表以及图表展示可视化方式呈现,导航栏方便用户查看各种分类;栏目定制功能,用户可以在首页自行删、减、增添所需要的功能模块;舆情预警子单元:预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息列表,建立多个舆情指标,对于突发舆情自动发出预警信号,在最短时间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导;舆情分析报告子单元:根据舆情分析引擎处理后的结果库生成报告,客户可通过浏览器浏览,并且可以导出生成为Word、PDF格式的本地文档,方便客户对不同时段的重点和热点以及对事件舆情数据的把握。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电传媒股份有限公司,未经中电传媒股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810856017.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种针对政务微博传播影响力的计算方法
- 下一篇:一种小图片页面渲染方法