[发明专利]一种微博博文情感分析评估推送方法在审
申请号: | 202011570993.8 | 申请日: | 2020-12-26 |
公开(公告)号: | CN112612971A | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 黄秀君;李清秋;王峥 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06F16/35;G06Q50/00;G06F40/211;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京千语知识产权代理事务所(普通合伙) 32394 | 代理人: | 尚于杰;祁文彦 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 微博博 文情 分析 评估 推送 方法 | ||
1.一种微博博文情感分析评估推送方法,其特征在于,包括如下步骤:
步骤1:使用爬虫技术获取关注人列表和关注人博文;
步骤2:对博文中的图像及文本进行预处理;
步骤3:对博文进行实时分析与检测并标明情感标签;
步骤4:对个别敏感博文判断立场,分辨是否为抑郁信号;
步骤5:基于检测结果进行实时推送。
2.如权利要求1所述的微博博文情感分析评估推送方法,其特征在于,所述步骤1具体包括如下步骤:
步骤11:在浏览器中登录微博,然后用浏览器提供的开发者工具查看请求页面的请求头信息,获取Cookie信息,并用python直接访问微博;
步骤12:使用selenium模拟浏览器滚动条操作,在Ajax加载后再获取页面数据;
步骤13:对得到的HTML脚本使用lxml进行解析,建立节点化的DOM结构,逐一访问相关节点得到所需要的微博数据;
步骤14:采取伪装User-Agent与降低请求访问频率来应对微博反爬虫对策。
3.如权利要求2所述的微博博文情感分析评估推送方法,其特征在于,所述步骤2具体包括如下步骤:
步骤21:用基于连通分量分析的方法,将图片中文字之外的背景去除,然后利用高斯滤波去除图像中的噪声;
步骤22:对博文中的图像进行文字提取,并将之加入到对应博文中的文本内容之后;
步骤23:剔除文本中属于格式标记的内容。
4.如权利要求3所述的微博博文情感分析评估推送方法,其特征在于,所述步骤3具体包括如下步骤:
步骤31:对于步骤2实时获取的语料库运用Jieba语库进行分词处理,通过对照典生成句子的有向无环图;
步骤32:在有向无环图中,根据选择的模式不同,根据词典寻找最短路径后对句子进行截取或直接对句子进行截取;
步骤33:在运行时添加统计词频的功能,为每条语料贴上词频最高的关键词标签;
步骤34:将带有高词频负面词汇博文提取出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011570993.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化往复式搅拌混料反应器
- 下一篇:一种棉花种植用可定量施肥装置