[发明专利]一种SVM与Bootstrapping相融合的股评类文本情感分析方法在审
申请号: | 201910781151.8 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110489557A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 王小芳;邹倩颖;刘树林;刘洪江 | 申请(专利权)人: | 电子科技大学成都学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F17/27;G06K9/62;G06Q40/04 |
代理公司: | 51250 成都时誉知识产权代理事务所(普通合伙) | 代理人: | 沈成金<国际申请>=<国际公布>=<进入 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类器 文本数据 准确率 支持向量机构 抓取 传统算法 聚焦爬虫 评价模型 情感分析 情感倾向 算法实现 网页分析 网页文本 文本情感 情感词 小样本 负向 构建 算法 正向 重构 网页 融合 平衡 分析 | ||
1.一种SVM与Bootstrapping相融合的股评类文本情感分析方法,其特征在于,包括如下步骤:
步骤一:采用基于特定网页分析的聚焦爬虫算法实现网页页面的抓取以及对网页文本内容的提取,得到文本数据集;
步骤二:利用SVM构建小样本S-B分类器,
步骤三:利用S-B分类器对文本数据集进行分类,得到小规模分类器的特征词集;
步骤四:利用Bootstrapping算法对步骤三中构建的S-B分类器进行分类器重构,扩大分类器,得到全特征词集即待评价模型;
步骤五:采用模型评价对待评价模型的采用召回率、准确率和F值进行分析,得到待评价模型的股评效果。
2.根据权利要求1所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法,其特征在于,所述的步骤五中对待评价模型的评价效果的模型评价方法,包括如下过程:采用召回率、准确率和F值来对评价模型的评价效果进行评价,召回率计算公式如下:
其中,TP表示正倾向类别中正确预测为正倾向的样本数量,FN表示正倾向类别中被错误预测为负倾向的样本数量,TP+FN表示实际的正倾向类别的样本数量;
准确率计算如下式所示:
其中,FP表示负倾向类别中正确预测为负倾向的样本数量,TP+FP表示预测为正倾向的总的样本数量;
F值公式如下式所示
其中,准确率表示在判断为正倾向的句子中,有多少是实际正倾向的;F值表示召回率和正确率的加权调和平均,平衡两者的值,用于反映该模型对正倾向的预测效果。
3.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法,其特征在于,所述步骤一中的网页文本内容提取采用正则表达式来提取,采用如下公式:
re=^[\u4E00-\u9FA5A-Za-z0-9_]+$
其中,^表示匹配开始标志,\u4E00-\u9FA5表示匹配简体中文,A-Za-z表示匹配英文,0-9表示匹配数字,_表示匹配下划线,$表示匹配结束标志,该正则表达式可以匹配数字、汉字、英文和下划线等。
4.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法,其特征在于,所述的步骤二中利用SVM支持向量机构建小样本S-B分类器包括如下过程:
第一步,利用ICTCLAS分词系统提取文本特征;
第二步,使用IF-IDF计算词权值以进行文本特征表示;
第三步,通过归一化处理消除指标差异,通过超平面划分,完成S-B分类器构建。
5.根据权利要求1所述的所述的一种SVM与Bootstrapping相融合的股评类文本情感分析方法,其特征在于,利用Bootstrapping算法对步骤二中构建的S-B分类器进行分类器重构,扩大S-B分类器,得到待评价模型,包括如下过程:
输入—训练集D={S,U},其中S为训练好的文本小样本数据集,U为大规模的待分类文本数据集;
输出—训练SVM分类器F,筛选领域文档M;
(1)令i=1;
(2)用si来训练SVM分类器Fi,其中i表示循环的次数;
(3)从Ui中随机抽取部分文档u,使用Fi对u进行分类,得到领域文本m;
(4)将m添加进领域文本集Mi中:Mi+1=Mi+m,从Ui中去除已经训练过的部分文档:ui+1=Ui-u;
(5)将m中文章按置信度高低排序,选取置信度最高的n篇文章,加入到训练文本Si+1中:Si+1=Si+n;
(6)
(7)如果i≤|U|/|u|,则i++,执行步骤(2),否则结束,输出F=Fk。
由于每次循环都会加入新训练集,加入的训练集可能存在误差,因此,特征词类别概率公式中引入权重计算公式,调整特征词属于类别,其公式如式(1)、式(2)所示
w`k=wk*δ(wk,Uj) (1)
其中,i表示当前循环次数,δ表示权重因子,用于不同阶段的训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学成都学院,未经电子科技大学成都学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910781151.8/1.html,转载请声明来源钻瓜专利网。