[发明专利]一种面向股票领域的文本情感分类方法无效
申请号: | 201010543267.7 | 申请日: | 2010-11-11 |
公开(公告)号: | CN102023967A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 张勇;高旸;周莉;邢春晓 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 朱琨 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
一种面向股票领域用的文本情感分类方法,属于股票倾向性分析技术领域,其特征在于通过包括股票新闻在内的公开新闻信息,利用改进了的评价组,对扩大了的股票情感词来进行特征选择,并用归一化后的绝对词频权重对股票中文文本中的情感词进行特征加权选择,最终利用 |
||
搜索关键词: | 一种 面向 股票 领域 文本 情感 分类 方法 | ||
【主权项】:
1.一种面向股票领域的文本情感分类方法,其特征在于,所述文本情感分类是一种倾向性分析,用于识别股票领域的中文文本是正面还是负面的,所述分类方法是在计算机中依次按以下步骤实现的:步骤(1)所述计算机初始化,设定以下软件工具:Add-delta数据平滑算法模块;对股票新闻进行中文分词用的汉语词法分析模块ICTCLAS;用于文本特征选择的评价模块;分类实验所用的Weka模块,其中包括了
Bayes和K-NN等分类算法,定义在股票领域中文文本分词用的新词:缩略词,包括但不限于:中石油、国投和中金;专有名词,包括但不限于:股份有限公司和证券投资基金;派生词,包括但不限于:黑马股、领涨和利空;复合词,包括但不限于:冲高回落和分红派息;步骤(2)把设定的证券新闻中的新闻标题以及包括证券常用词和供情感分类用的股票名称在内的相关股票信息作为原始语料,即中文文本,输入到所述计算机;步骤(3)中文文本分词,把步骤(2)中所述的中文文本中的汉字序列切分成一个一个具有独立意义的词,步骤如下:步骤(3.1)采用新词发现用的n-gram统计语言模型构建股票领域分词词典,步骤如下:步骤(3.1.1)建立n-gram模型,设定一个字符串序列n-gram用W=w1w2...wn表示,wi表示一个字符,n取2~6的整数,表示该字符串中的字符个数,则按下式计算一个所述字符串序列W在所述中文文本中出现的概率PMLE(wn|w1w2…wn-1),MLE表示这是一种采用最大似然估计的参数估计方法,称为n-gram语言模型,如果一个字符串(n-gram)的长度为L,那么由此得到按n切分后的字符串数量为L-n+1个,并统计其中相同字符串的出现频率,其中P MLE ( w n | w 1 w 2 . . . w n - 1 ) = C ( w 1 w 2 . . . w n ) C ( w 1 w 2 . . . w n - 1 ) , ]]> C(w1w2...wn)表示字符串w1w2...wn在所述原始语料中出现的次数,C(w1w2...wn-1)表示由字符串w1w2...wn中前n-1个字符w1w2...wn-1组成的字符串在所述原始语料中出现的次数,步骤(3.1.2)用改进了的Add-delta数据平滑算法对步骤(3.1.1)得到的字符串进行平滑处理,P Add - delta ( w 1 w 2 . . . w n ) = C ( w 1 w 2 . . . w n ) + Δ C ( w 1 w 2 . . . w n - 1 ) + Δ · N , ]]> 其中Δ=0.5,N是所述原始语料中所有字符串n-gram的数量,步骤(3.1.3)对常用词中的没有用的字符子串进行过滤,当作为父串的一个常用词与其字符子串的频率之差小于0.0001且该常用词与其字符子串的长度只差小于3时,则把该字符子串过滤,从步骤(3.1.1)到步骤(3.1.3)即可得到股票领域的分词词典,步骤(3.2)结合步骤(3.1.1)到步骤(3.1.3)得到的所述股票领域的分词词典,和基于多层马尔科夫模型的ICTCLAS汉语词法分析模块,对所述股票新闻进行分词;步骤(4)去除步骤(3.2)得到的对所述股票新闻分词结果中的停用词,所述停用词是出现频率高于常用词并且无实际意义的分词,步骤(4.1)建立一个股票新闻文本中的停用词表,并输入该计算机,该停用词表包括介词、冠词、助词、连接词和标点符号,还有在所述股票新闻中常用作提示性的词,至少包括但不限于快讯、锐点、大盘和市场,步骤(4.2)利用所述停用词表对步骤(3)中得到的对所述股票新闻分词结果进行停用词去除;步骤(5)在步骤(3)和步骤(4)预处理的基础上,用一个空间向量模型表示所述股票中文文本,其步骤如下:步骤(5.1)利用基于评价理论Appraisal Theory的所述评价模块,从所述股票中文文本中提取形容词短语、带有情感色彩的形容词、动词以及修饰词,统称情感词,步骤(5.2)设定一个所述股票情感词的评价组,其中包括:正面词,用于描述包括但不限于股票价格上涨、股票上市公司业绩好在内的正面分析用词;负面词,用于描述包括但不限于股票价格下跌、股票上市公司业绩差在内的负面分析用词;程度词,是指描述正面或负面的程度的词;否定词,用于加在正面词或负面词之前,相反之意;不确定词,决定所述正面词或负面词的可信度,所述五种类型的股票情感评价用词构成一个特征词集合,并输入到所属计算机,步骤(5.3)利用步骤(5.2)得到的特征词集合,对步骤(5.1)所提取的股票情感词进行文本情感分析,并标志其所属类型,步骤(5.4)利用基于归一化的绝对词频权重,对步骤(5.3)中所述的股票情感词进行特征加权:第j个文本的归一化处理后的绝对词频权重,在[0,1]区间内取值:weight normal ( t k , d j ) = weight ( t k , d j ) Σ j = 1 | T | ( weight ( t k , d j ) ) 2 , ]]> 其中tk,t是表示经过特征词集合评价后的股票情感词,k是经过对多个所述股票中文文本中的所述股票情感词进行大排序后富裕的序号,dj,d表示所述股票中文文本,j是所述股票中文文本的序号,|T|表示所有股票中文文本的个数,因此j=1,2,...,|T|,weight(tk,dj)表示第j个所述股票中文文本中第k个所述股票情感词的在归一化处理前的词频权重,在[0,1]区间内取值;weightnormal(tk,dj)表示该情感词在归一化处理后的绝对词频权重,在[0,1]区间内取值;步骤(6)文本情感分类利用所述Weka模块中的任何一种分类算法对其一个股票中文文本进行情感分类,正面的属于正热点板块,负面的属于负热点板块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010543267.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种黄秋葵叶提取物及其保健速溶茶的生产方法
- 下一篇:组装式卸料平台