[发明专利]一种SVM与Bootstrapping相融合的股评类文本情感分析方法在审

专利信息
申请号: 201910781151.8 申请日: 2019-08-22
公开(公告)号: CN110489557A 公开(公告)日: 2019-11-22
发明(设计)人: 王小芳;邹倩颖;刘树林;刘洪江 申请(专利权)人: 电子科技大学成都学院
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F17/27;G06K9/62;G06Q40/04
代理公司: 51250 成都时誉知识产权代理事务所(普通合伙) 代理人: 沈成金<国际申请>=<国际公布>=<进入
地址: 610000 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类器 文本数据 准确率 支持向量机构 抓取 传统算法 聚焦爬虫 评价模型 情感分析 情感倾向 算法实现 网页分析 网页文本 文本情感 情感词 小样本 负向 构建 算法 正向 重构 网页 融合 平衡 分析
【说明书】:

发明公开了一种SVM与Bootstrapping相融合的股评类文本情感分析方法,包括如下步骤:采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取,得到文本数据集;利用SVM支持向量机构建小样本S‑B分类器;利用Bootstrapping算法对步骤二中构建的S‑B分类器进行分类器重构,扩大S‑B分类器,得到待评价模型;利用步骤三得到扩大的S‑B分类器的对步骤一中提取到的文本数据集进行情感分析,得到正向或负向情感倾向。根据本发明,可以实现在处理关键情感词时较传统算法而言更合理,提高了准确率与召回率,使得平衡准确率与召回率的整体F值提高。

技术领域

本发明涉及机器学习领域,具体是一种SVM与Bootstrapping相融合的股评类文本情感分析方法。

背景技术

随着互联网技术的发展,网上评论信息呈现爆发式增长,如何在海量数据中寻找有价值的信息显得尤其重要。尤其对于股票评论数据,存在内容丰富,情感表象不明确,如何通过股评信息对股票进行判断成为股民关注的重点及热点,吸引许多专家学者探讨。

目前,有人提出利用非监督学习方法,利用语义倾向方法,对词或短语对股评文本进行情感实分析,以判定篇章类别,该算法虽能对文本进行很好的分类,但不能精确的判断领域词的情感倾向。还有提出基于意见目标句抽取的中文股评情感分析方法,该算法利用半监督学习分类方法借助主动词识别器情感并进行情感判别,该算法虽利用股评文章特点改善股评文章情感分析的准确性,但不适合篇章级别的股评文本情感分析。还有提出基于文本情感分析的方法对网络股评走势影响分析,该算法通过建立ARMA-GARCHX模型和ARMAX-GARCH模型计算情感指数,进而分析网络股评中情感因素和股市走势间关系,该算法分析结果虽能很好的分析出投资人情感倾向预测股票价格波动,但只能分析当前和前期情感,对后期情感预测效果不佳。

发明内容

本发明的目的在于克服现有技术的不足,提供一种SVM与Bootstrapping相融合的股评类文本情感分析方法,包括如下步骤:

步骤一:采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取,得到文本数据集;

步骤二:利用SVM构建小样本S-B分类器,

步骤三:利用S-B分类器对文本数据集进行分类,得到小规模分类器的特征词集;

步骤四:利用Bootstrapping算法对步骤三中构建的S-B分类器进行分类器重构,扩大分类器,得到全特征词集即待评价模型;

步骤五:采用模型评价对待评价模型的采用召回率、准确率和F值进行分析,得到待评价模型的股评效果。

进一步的,还包括对评价模型的评价效果的评价方法,包括如下过程:采用召回率、准确率和F值来对评价模型的评价效果进行评价,召回率计算公式如下:

其中,TP表示正倾向类别中正确预测为正倾向的样本数量,FN表示正倾向类别中被错误预测为负倾向的样本数量,TP+FN表示实际的正倾向类别的样本数量;

准确率计算如下式所示:

其中,FP表示负倾向类别中正确预测为负倾向的样本数量,TP+FP表示预测为正倾向的总的样本数量;

F值公式如下式所示

其中,准确率表示在判断为正倾向的句子中,有多少是实际正倾向的;F值表示召回率和正确率的加权调和平均,平衡两者的值,用于反映该模型对正倾向的预测效果。

进一步的,所述步骤一中的网页文本内容提取采用正则表达式来提取,采用如下公式:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学成都学院,未经电子科技大学成都学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910781151.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top