[发明专利]一种网络舆情事件多维信息提取的方法及装置有效
申请号: | 201310207128.0 | 申请日: | 2013-05-29 |
公开(公告)号: | CN103309960B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 肖赞;罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 舆情 事件 多维 信息 提取 方法 装置 | ||
技术领域
本发明涉及网络信息处理技术领域,特别是涉及一种网络舆情事件多维信息提取的方法及装置。
背景技术
随着互联网的不断普及,越来越多的人们通过互联网来表达自己的观点、发表和交流对热点事件的看法等,使得互联网日渐成为舆情产生和传播主要场所之一。由于网络舆情传播简单、身份隐藏,具有隐蔽性和突发性,并且社会影响力大,使得对网络舆情的研究逐步受到各国政府的高度关注。
因此,本领域技术人员迫切需要解决的问题之一在于,提出一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。
发明内容
本发明所要解决的技术问题是提供一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。
为了解决上述问题,本发明公开了一种网络舆情事件多维信息提取的方法,包括:
基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
依据所述主题按照预设时间段分时获取特征网页;
获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
优选地,所述采用种子网页构建网络舆情事件初始的主题的步骤包括:
获取各种子网页的文本属性信息;
分别针对各种子网页的文本属性信息进行分词及识别命名实体;
采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
优选地,所述按照预设时间段分时获取特征网页的步骤包括:
分别在预设时间段抓取指定网页;所述指定网页包括新闻、论坛和微博网页;
计算各指定网页的内容向量和命名实体向量;
依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;
若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
优选地,所述依据各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度的步骤包括:
采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
优选地,所述方法还包括:
在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤包括:
依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;
依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
本发明实施例还公开了一种网络舆情事件多维信息提取的装置,包括:
种子网页提取模块,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
特征网页获取模块,用于依据所述主题按照预设时间段分时获取特征网页;
文本信息获取模块,用于获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310207128.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于相似性传递的协同过滤方法及系统
- 下一篇:网页浏览方法、装置及终端