[发明专利]一种基于情感分析和隐马尔科夫模型融合的股市预测方法有效
申请号: | 201410023154.2 | 申请日: | 2014-01-17 |
公开(公告)号: | CN103778215A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 张春霞;蒋一泽;牛振东;赵小林;刘振岩 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/04;G06Q40/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 分析 隐马尔科夫 模型 融合 股市 预测 方法 | ||
技术领域
本发明涉及一种基于情感分析和隐马尔科夫模型融合的股市预测方法,属于意见挖掘和股市预测领域,适用于倾向性分析、主题检测、网络内容监控等。
背景技术
证劵市场与金融投资在现代社会中占有重要的地位。股市行情受国际环境、国家政策、经济形势、社会问题,以及投资者心理等诸多因素的影响。股市预测是经济、系统科学领域的重要研究问题。
常用的股市预测方法包括证劵投资分析法、时间序列预测分析法、非线性预测法。证劵投资分析法包括基本分析法和技术分析法。基本分析法主要包括宏观经济分析和产业周期分析等,技术分析法是根据股市行情变化进行分析的方法。时间序列预测分析法是根据股市行情的历史数据来预测股票价格未来的发展趋势和特点。非线性预测法包括基于统计学理论的预测方法、神经网络方法、模糊逻辑预测法等。
互联网的迅猛发展和广泛普及,使得人们能够及时获得众多财经新闻。由于财经新闻反映了政府与相关机构对证劵市场发展变化的观点,这些观点信息不断在影响投资者对于市场趋势的判断,进而影响市场走势。另外,随着情感分析技术的发展,情感分析技术已被应用于证劵领域。在现有的基于情感分析的股票预测方法中,处理对象主要包括互联网金融留言板和微博信息,处理方法是发现这些信息的情感倾向与股市行情的关联,进而预测未来股市的走势。
情感分析技术是指利用机器学习、信息抽取、自然语言处理等方法来判定文本所持有情感的倾向性和强度的技术。根据文本粒度不同,情感分析可以分为词汇级、句子级和篇章级。情感倾向性通常分为积极、消极和中性。情感分析方法可以分为基于监督、半监督和无监督的方法。情感倾向性分类方法主要包括贝叶斯、支持向量机、最大熵、条件随机场和决策树等。
隐马尔科夫模型最早被应用于语音识别和生物信息学等领域。目前,隐马尔科夫模型、以及它与人工神经网络的混合模型、与因果预测法和时间序列预测法的混合方法已被应用于股市预测。
发明内容
现有的基于隐马尔科夫模型的股市预测方法主要使用了股市运行过程中的基本信息,包括开盘价和收盘价等,而忽略了新闻媒体的观点和投资者的心理对股市波动的影响。由于中国股市易受政策影响等特点,仅仅利用这些基本信息难以反映股市的性质。
本发明的目的在于提出一种基于情感分析和隐马尔科夫模型融合的股市预测方法。将新闻网页的情感倾向性与股市技术指标有机地结合,构建了连续型隐马尔科夫模型来预测中国股市走势。该方法的特点是,其一,处理新数据具有较强的鲁棒性,能够有效地预测相似的模式信息。其二,通过利用新闻网页的情感倾向性信息,提高了股市预测的准确性。
本发明提供了一种基于情感分析和隐马尔科夫模型融合的股市预测方法,包括以下步骤:
步骤1、信息采集:针对新浪网财经新闻网页,利用网络爬虫Heritrix采集财经新闻网页,将其保存到本地计算机;
在网络爬虫中,分别输入四个种子网页地址,即新浪网财经新闻的“股市及时雨”、“主力动向”、“宏观研究”和“市场研究”四个频道的首页地址,下载这些频道的财经新闻网页,下载后的财经新闻网页按照新闻的发布时间顺序以超文本标记语言Html文件形式保存在本地计算机;
步骤2、信息预处理:对信息采集步骤中获取的财经新闻网页进行正文抽取、分词、词性标注,以及停用词和标点符号过滤;
首先,针对采集到的财经新闻网页,抽取新闻网页的标题、发布时间和正文文本信息,去除网页中的噪音信息;其次,人工构建财经领域词典和股市情感词典,由于财经领域新闻网页包含众多的专业词汇,因此通过构建财经领域词典和股市情感词典来提高分词的准确率;然后,利用分词工具ICTCLAS和这两个词典,对正文文本进行分词和词性标注;最后,去除标点符号和停用词;
步骤3、语料构建:构建股票领域相关语料库,包括对财经新闻网页的主题词抽取、股票领域相关语料的识别;
对财经新闻网页的主题词,采用一种基于规则和统计的混合抽取方法,具体步骤包括:
首先,构建财经新闻网页的候选主题词,包括网页中的名词,以及包含在财经领域词典和股市情感词典中的词语;
其次,计算候选主题词在网页中的词频TF,TF为该词语在文档中的出现频率与文档中所有词语数目的比值,若该词语在财经领域词典和股市情感词典中,则其TF值扩大两倍;
然后,计算候选主题词的文档频率DF,文档频率DF为该词语在语料库中出现的文档数目与语料库中所有文档数目的比值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410023154.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种3D打印高密度产品方式
- 下一篇:一种提高公马精液品质的中药组合物