[发明专利]一种股票标准新闻库的构建方法及构建系统在审
申请号: | 201510511588.1 | 申请日: | 2015-08-19 |
公开(公告)号: | CN105069141A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | 金学波 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 股票 标准 新闻 构建 方法 系统 | ||
技术领域
本发明涉及文字信息处理技术领域,尤其是一种股票标准新闻库的构建方法。
背景技术
股市新闻作为市场信息的重要部分,被投资者广泛地分析和运用。随着互联网的高速发展,新闻传播和信息变更的速度非常大。拥有如此大量的信息,越来越多的金融机构依靠计算机来分析数据,与此相关的分析预测系统可以帮助投资者过滤干扰信息并做出合理的选择。
股票价格的统计分析和预测方法很多,一些传统技术分析方法包括股价图形分析(点线图、直线图、K线图等)、趋势分析(趋势线、通道线、黄金分割线等)、指标分析(随机指标、威廉指标、乖离率、相对强弱指数等)等。这些技术主要集中在运用近期历史价格数据的数值型方法分析,不能分析文字新闻数据。
目前,随着互联网的发展,基于文本分析的股票分析及预测方法也取得了实际的应用效果。基于文本分类-预测模型可以利用最新的股市新闻,对股价给出一个比较明确的预测(上升,持平或者下降)。基于文本分析的股票分析及预测方法通过公开新闻信息,利用改进的评价组对股票情感词进行特征选择,并用归一化后的绝对词频权重对文本中的情感词进行特征加权选择并对股票新闻进行倾向性分析。但是该方法较为复杂,效率较低,输出结果的准确性不高。
发明内容
本发明所要解决的技术问题是提供一种构建简单,输出准确的股票标准新闻库构建方法及构建系统。
本发明解决上述技术问题的技术方案如下:
一种股票标准新闻库的构建方法,其特征在于,包括如下步骤,
步骤S1:获取股票新闻信息;
步骤S2:根据股票新闻信息构建股票标准库Z0;
步骤S3:对股票标准库中的文本进行预编译;
步骤S4:对已编译文本的特征进行标识,选取特征词;
步骤S5:计算特征词的信息增益,得到特征词的特征值;
步骤S6:利用特征值训练支持SVM算法,得到抽取新闻特征的分类模型;
步骤S7:利用分类模型更新股票标准库;
步骤S8:重复步骤S3至步骤S6,调整股票标准库中的新闻组成,直至分类结果正确比率大于阈值。
本发明的有益效果:通过对抓取的新闻信息进行判断是积极新闻还是消极新闻,构建分类模型,并通过向量机算法不断更新数据库中的新闻信息,实现新闻库的构建,该数据库构建方法简单,实现方便,且新闻数据处理效率高,及时更新数据信息,数据信息准确。
进一步,获取股票新闻信息的方法为使用互联网工具网络爬虫从互联网中抓取股票新闻信息。
采用进一步技术方案的有益效果:从互联网中实时抓取新闻信息,新闻时效性高,能够实现动态更新新闻库。
进一步,所述步骤S2构建股票标准库的方法为根据获取的股票新闻信息,逐条判断新闻信息对股票是看涨或看跌,如果看涨,则该条新闻信息归类为积极新闻,如果看跌则该条新闻归类为消极新闻,积极新闻和消极新闻共同构成股票标准库Z0。
采用进一步技术方案的有益效果:新闻信息归类为积极新闻和消极新闻,归类简单直接,积极新闻和消极新闻共同构成股票标准库Z0,便于后续文本处理。
进一步,所述步骤S3中对股票标准库中的文本进行预编译,预编译包括对新闻信息进行分词和去除停用词;
分词,采用Jieba分词系统,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;
去除停用词,定义停用词,利用Jieba分词工具去除停用词。
采用进一步技术方案的有益效果:工业界和学术界常用的有TheStanfordNLP(中科院NLP组),其为基于Python语言的Jieba开源分词软件的中文分词组件。采用Jieba分词系统,它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。另外利用Jieba分词工具本身自带的停用词库(包含语气助词、副词、介词、连接词等)就可以很好的达到去除停用词的目标。
进一步,所述步骤S4对文本特征进行标识,采用TF-IDF加权法;
TF-IDF的计算方法为词频TF与逆向文档频率IDF的乘积,TF表示词语在文件d中出现的频率,IDF的含义是:如果包含词语t的文件越少,也就是n越小,IDF越大,则说明词语t具有很好的类别区分能力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510511588.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:专利分析系统
- 下一篇:一种基于XML的数字资源标识方法和装置