[发明专利]一种分析网络评论相关度的系统及其分析方法有效

专利信息
申请号: 201110229617.7 申请日: 2011-08-11
公开(公告)号: CN102254038A 公开(公告)日: 2011-11-23
发明(设计)人: 王君泽;黄本雄;王超;胡广;温杰 申请(专利权)人: 武汉安问科技发展有限责任公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市德权律师事务所 11302 代理人: 周发军
地址: 430074 湖北省武汉市东湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 分析 网络 评论 相关 系统 及其 方法
【说明书】:

技术领域

发明属于互联网文本处理/数据挖掘领域,涉及利用数据挖掘相关技术分析网络中主题文章与针对这些文章提出的众多评论内容之间相关度等方面。具体包含了利用向量空间模型,概率模型与语言模型进行的针对主题文章与评论内容相似性分析,以及评论内容本身之间相关性的分析。

背景技术

Web2.0时代是一个信息急速增长的时代,网民们能够自由针对各种网络新闻和博客做出各种评论,近几年这些评论数据已经达到了一个海量的规模。针对这些数据现在已经有诸多数据挖掘方面的研究,如用户评论提取与情感分析,用户评论的整合和抽象等。在众多研究领域中,当前有一项研究热点就是识别评论与主题是否相关,即评论是否属于垃圾评论,它有助于人们更好的利用评论资源。在目前研究工作中,这种识别一般都仅为定性的识别:不相关则为垃圾评论,反之为非垃圾评论。事实上,垃圾评论与非垃圾评论之前并没有明显的分界,故这种定性的识别往往比较模糊。此外,即使同为非垃圾评论,它们的价值也往往不尽相同。目前为止,以上这些不足还没有被一般研究人员考虑到。

当前,评论信息研究工作主要集中在利用自然语言处理技术以及数据挖掘技术提取并总结用户评论数据中的用户观点,即评论中的意见挖掘(正面还是负面)领域。具体包含:在针对某项产品的用户评论中总结出该产品的某些功能以及用户对这些功能的观点,识别每个评论中能够反映用户观点的词句,识别每个评论的包含的用户感情是积极或是消极等。在研究评论提出者个性以及行为方面,目前也正在起步并取得一定研究成果,与此类似的还有关于评论内容可信度上的研究。

但在垃圾评论识别上却仍然基本上是一片空白,现今已有的少量关于垃圾评论识别上的研究工作也仅停留在描述垃圾评论分析的各种问题以及已确定的垃圾评论的种类上。

发明内容

本发明针对现有的互联网中缺乏评论信息相关度分析工具的现状,提供一种网络评论与其主题的相关度分析系统。

为解决上述技术问题,本发明的网络评论与其主题的相关度分析系统,其特征在于,包括网络爬虫模块,相关度分析模块,网页展示模块,

所述网络爬虫模块,用于截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合供所述相关度分析模块分析处理;

所述相关度分析模块,用于定量计算网络评论与主题文章之间的相关度;

所述网页展示模块,用于将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。

所述相关度分析模块包括:

第一装置,用于以全部网络评论为节点,生成无向图;

第二装置,用于计算某个网络评论与主题文章之间的相似度;

第三装置,用于计算第二装置所述网络评论与其相邻节点指代的网络评论的相似度;

第四装置,用于根据第二装置计算出的网络评论与主题文章之间的相似度,以及第三装置计算出的网络评论与其相邻节点指代的网络评论的相似度,计算该网络评论与主题文章之间的相关度。

所述相关度分析模块还包括:

步进装置,用于选择下一个未作相关度计算的网络评论,如果不存在未作相关度计算的网络评论,则返回空值;

调用控制装置,用于将所述步进装置所选择的网络评论作为输入,并判断是否输入为空值,

如果非空,则调用所述第二、第三、第四装置,计算当前网络评论与主题文章之间的相关度;返回到步进装置;

如果为空值,则停止。

还包括相关度判断模块,用于比较所述相关度分析模块计算出的某个网络评论与主题文章之间的相关度与设定的阈值之间的大小;当所述相关度小于设定的阈值时,则所述网页展示模块显示该网络评论为与主题文章无关的评论。

本发明同时提出了一种上述分析网络评论相关度的系统的分析方法,其特征在于,包括以下步骤:

所述网络爬虫模块截取网页的文本内容,生成主题文章与若干相关评论的数据集合,所述数据集合发给所述相关度分析模块;

所述相关度分析模块定量计算网络评论与主题文章之间的相关度;

所述网页展示模块将相关度分析模块计算得到的网络评论相关度结果,以网页形式输出展示。

所述相关度分析模块定量计算网络评论与主题文章之间的相关度,包括以下步骤:

步骤5-1、计算某个网络评论与主题文章之间的相似度;

步骤5-2、以全部网络评论为节点,生成无向图;

步骤5-3、计算所述网络评论与其相邻节点指代的网络评论的相似度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安问科技发展有限责任公司,未经武汉安问科技发展有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110229617.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top