[发明专利]一种SVM与Bootstrapping相融合的股评类文本情感分析方法在审

申请号：	201910781151.8	申请日：	2019-08-22
公开（公告）号：	CN110489557A	公开（公告）日：	2019-11-22
发明（设计）人：	王小芳;邹倩颖;刘树林;刘洪江	申请（专利权）人：	电子科技大学成都学院
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/951;G06F17/27;G06K9/62;G06Q40/04
代理公司：	51250 成都时誉知识产权代理事务所(普通合伙)	代理人：	沈成金<国际申请>=<国际公布>=<进入
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类器文本数据准确率支持向量机构抓取传统算法聚焦爬虫评价模型情感分析情感倾向算法实现网页分析网页文本文本情感情感词小样本负向构建算法正向重构网页融合平衡分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，包括如下步骤：

步骤一：采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取，得到文本数据集；

步骤二：利用SVM构建小样本S-B分类器，

步骤三：利用S-B分类器对文本数据集进行分类，得到小规模分类器的特征词集；

步骤四：利用Bootstrapping算法对步骤三中构建的S-B分类器进行分类器重构，扩大分类器，得到全特征词集即待评价模型；

步骤五：采用模型评价对待评价模型的采用召回率、准确率和F值进行分析，得到待评价模型的股评效果。

2.根据权利要求1所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述的步骤五中对待评价模型的评价效果的模型评价方法，包括如下过程：采用召回率、准确率和F值来对评价模型的评价效果进行评价，召回率计算公式如下：

其中，TP表示正倾向类别中正确预测为正倾向的样本数量，FN表示正倾向类别中被错误预测为负倾向的样本数量，TP+FN表示实际的正倾向类别的样本数量；

准确率计算如下式所示：

其中，FP表示负倾向类别中正确预测为负倾向的样本数量，TP+FP表示预测为正倾向的总的样本数量；

F值公式如下式所示

其中，准确率表示在判断为正倾向的句子中，有多少是实际正倾向的；F值表示召回率和正确率的加权调和平均，平衡两者的值，用于反映该模型对正倾向的预测效果。

3.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述步骤一中的网页文本内容提取采用正则表达式来提取，采用如下公式：

re＝^[\u4E00-\u9FA5A-Za-z0-9_]+$

其中，^表示匹配开始标志，\u4E00-\u9FA5表示匹配简体中文，A-Za-z表示匹配英文，0-9表示匹配数字，_表示匹配下划线，$表示匹配结束标志，该正则表达式可以匹配数字、汉字、英文和下划线等。

4.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，所述的步骤二中利用SVM支持向量机构建小样本S-B分类器包括如下过程：

第一步，利用ICTCLAS分词系统提取文本特征；

第二步，使用IF-IDF计算词权值以进行文本特征表示；

第三步，通过归一化处理消除指标差异，通过超平面划分，完成S-B分类器构建。

5.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法，其特征在于，利用Bootstrapping算法对步骤二中构建的S-B分类器进行分类器重构，扩大S-B分类器，得到待评价模型，包括如下过程：

输入—训练集D＝{S，U}，其中S为训练好的文本小样本数据集，U为大规模的待分类文本数据集；

输出—训练SVM分类器F，筛选领域文档M；

(1)令i＝1；

(2)用s_i来训练SVM分类器F_i，其中i表示循环的次数；

(3)从U_i中随机抽取部分文档u，使用F_i对u进行分类，得到领域文本m；

(4)将m添加进领域文本集M_i中：M_i+1＝M_i+m，从U_i中去除已经训练过的部分文档：u_i+1＝U_i-u；

(5)将m中文章按置信度高低排序，选取置信度最高的n篇文章，加入到训练文本S_i+1中：S_i+1＝S_i+n；

(6)

(7)如果i≤|U|/|u|，则i++，执行步骤(2),否则结束，输出F＝F_k。

由于每次循环都会加入新训练集，加入的训练集可能存在误差，因此，特征词类别概率公式中引入权重计算公式，调整特征词属于类别，其公式如式(1)、式(2)所示

w`_k＝w_k*δ(w_k,U_j) (1)

其中，i表示当前循环次数，δ表示权重因子，用于不同阶段的训练样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学成都学院，未经电子科技大学成都学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910781151.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载