[发明专利]商品网络舆情检测系统在审

专利信息
申请号: 201910465075.X 申请日: 2019-05-30
公开(公告)号: CN110163688A 公开(公告)日: 2019-08-23
发明(设计)人: 朱潇;李银胜 申请(专利权)人: 复旦大学
主分类号: G06Q30/02 分类号: G06Q30/02;G06F16/9535;G06F16/951
代理公司: 上海德昭知识产权代理有限公司 31204 代理人: 郁旦蓉
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 舆情信息 文本 去重 数据获取模块 检测系统 网络舆情 网页内容 分析 文本处理模块 分析模块 情感分析 情感倾向 输出模块 网页检索 舆情检测 网络 网页 采集 输出 智能
【权利要求书】:

1.一种商品网络舆情检测系统,用于对出入境商品在公开网络上的舆情信息进行舆情检测,其特征在于,包括:

数据获取模块,用于从所述公开网络中获取多个包含所述出入境商品的舆情信息的网页内容;

文本处理模块,用于依次对所述网页内容进行处理从而得到舆情信息文本;

文本去重模块,用于对所有的所述舆情信息文本进行去重处理得到待分析舆情信息文本;

情感倾向分析模块,用于依次对各个所述待分析舆情信息文本进行情感分析从而分别得到与各个所述待分析舆情信息相对应的舆情情感分;

舆情信息输出模块,用于将所述待分析舆情信息以及相应的所述舆情情感分进行对应输出,

其中,所述数据获取模块包括网页检索获取部以及网页去重部,

所述网页检索获取部根据所述出入境商品的商品关键词通过元搜索技术对所述公开网络中的相关网页内容进行检索并获取含有所述商品关键词的所述网页内容以及对应的网页地址,

所述网页去重部根据所述网页地址通过布隆过滤器对各个所述网页内容进行去重处理。

2.根据权利要求1所述的商品网络舆情检测系统,其特征在于:

其中,所述数据获取模块还包括热点网站统计判定部、获取控制部以及热点网站存储部,

所述热点网站统计判定部用于对所述网页地址的被命中次数进行统计从而根据所述被命中次数判定与所述网页地址对应的网站是否为热点网站,

当一个所述网站被判定为热点网站时,所述热点网站存储部就对该热点网站进行存储,

所述网页获取部在对各个所述公开网络中的网页进行检索并获取所述网页地址时,优先对所述常用网页存储部中存储的所述热点网站所对应的网页地址进行检索。

3.根据权利要求1所述的商品网络舆情检测系统,其特征在于:

其中,所述文本处理模块对所述网页内容进行处理的过程包括如下步骤:

节点标记步骤,对所述网页内容中的各个段落进行节点标记;

节点合并步骤,根据各个所述节点的上下文以及网页结构对所述节点进行合并形成父节点;

合并循环步骤,重复所述节点合并步骤直到完成预定条件;

分值计算步骤,根据最终多个父节点内的停用词数量、子节点的分布等因素,计算不同所述节点的最终分值;

舆情信息抽取步骤,根据所述最终分值最高的所述节点,从所述网页内容中抽取得到所述舆情信息文本。

4.根据权利要求1所述的商品网络舆情检测系统,其特征在于:

其中,所述文本去重模块对所述舆情信息文本进行去重处理的过程包括如下步骤:

文本选取步骤,将各个所述舆情信息文本两两组合并选取一对所述舆情信息文本;

相似度计算步骤,使用局部敏感哈希算法计算一对所述舆情信息文本之间的相似度;

文本去重步骤,判断所述相似度是否高于相似阈值并在判断高于所述相似阈值时随机剔除一对所述舆情信息文本中的一个,

去重循环步骤,选取下一对所述舆情信息文本并再次执行所述相似度计算步骤直至每对所述舆情信息文本都完成相似度的计算。

5.根据权利要求1所述的商品网络舆情检测系统,其特征在于:

其中,所述情感分析模块包括:

情感词典存储部,存储有预设的情感词典,该情感词典包含多个情感词以及对应的情感评分,

情感分计算部,根据所述情感词典依次对各个所述待分析舆情信息文本进行所述舆情情感分的计算,该计算公式为:

score=∑iweight×(-1)t×k×word(i) (1)

式中,score为整个文本的情感分,i表示第i个文本,weight表示每个词的重要程度,t表示词语之前是否有否定词,k代表程度词带来的权重,word(i)是第i个词的所述情感评分。

6.根据权利要求1所述的商品网络舆情检测系统,其特征在于:

其中,所述网页地址为统一资源定位符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910465075.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top