[发明专利]一种基于推特和历史股价信息的股价趋势预测方法及系统在审
申请号: | 202110823501.X | 申请日: | 2021-07-21 |
公开(公告)号: | CN115700621A | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 倪茴茴;王书婷;程鹏 | 申请(专利权)人: | 华东师范大学;君烁(上海)信息科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q40/04;G06F40/216;G06F40/289;G06F40/30;G06N3/045 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 夏思秋 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 历史 股价 信息 趋势 预测 方法 系统 | ||
本发明公开了一种基于推特和历史股价信息的股价走势预测方法,该方法包括以下步骤:收集目标股票相关的推特数据和历史股价信息,并进行初步的数据处理;为分词后的推特文本提取关键词并打分;构建推特节点关系图并将节点图中的推特映射到低维空间向量;提取推特中的情感因素,并根据表达的情感强弱为每条文本分配相应的分值;将前述步骤获得的信息投入深度学习模型中进行训练测试,预测股价。本发明还提供了实现上述方法的系统。本方法通过提取社交平台上的舆论信息,并对文本语义和情感因素进行挖掘分析,获得对股价趋势有影响的信息,证明舆论信息对股市波动的影响力,使得除了历史股价信息之外的信息用于股票趋势预测,使得预测能够更为准确。
技术领域
本发明属于人工智能技术领域,涉及一种基于推特信息和历史股价的股票趋势预测方法及系统。
背景技术
已有研究表明,社交平台上大众的评论与发言反映了大众对股市的看法,一定程度上反映出投资者的决策倾向。社交平台用户可以在各大社交平台随意地发表自己的意见与看法,其中最具代表性的平台就是推特。2020年4月推特的季度报表显示推特每日活跃用户量为1.26亿。因此在数目庞大的公共信息中,推特数据扮演了重要的角色,其囊括了许多有价值的信息。
而近年来,已有许多研究者将大众情感倾向作为预测股价走势预测任务的输入特征。现有的机器学习方法能够获取社交平台文本数据中的语义及情感信息,通过将推特上的大众评论信息纳入股市市场波动因素将会对投资者的投资决策和完善市场建设等方面具有理论和现实意义。目前根据推特或新闻文本进行股价走势预测的方法基本将文本用情感分析的方法为每天的舆论进行标注,也就是把不同的舆论文本独立来看,忽略了其内在联系,比如推特独有的社交平台的交互特性。
发明内容
在以往的研究和技术应用中,TF-IDF算法是用来提取文本关键词的,而Node2vec多用于已有的图结构中的嵌入编码工作。在本发明中为了提取推特文本中的不同信息,融合了这两种不同算法进行提取:利用改进的TF-IDF算法提取文本中的关键词并构建出推特节点关系图,利用Node2vec来提取其推特节点的潜在表示。而在这两者的融合运用上,考虑到Node2vec对目标图中的节点一视同仁,在生成游走序列后会对所有节点进行编码,而实际上在推特节点图中并不需要对关键词节点进行编码,这也是本发明需要克服的技术难点。
为了解决现有技术存在的只关注文本内情感倾向的不足,本发明的目的是提供一种基于推特和历史股价信息的股价趋势预测方法。通过提取推特数据中的语义信息、情感信息以及交互过程中的潜在信息,有效获得可能对股价趋势造成影响的信息。
具体步骤包括如下:
步骤(1)、收集目标股票相关的推特数据和历史股价信息,根据价格数据设置股票涨跌标签,并进行初步的数据处理;
步骤(2)、利用改进的TF-IDF算法为分词后的推特文本提取关键词并打分;
传统的TF-IDF算法由于文本长度偏差而影响不同推特中关键词的得分,从而影响后续的嵌入工作。因此,所述对TF-IDF算法的改进主要是将原算法式子分子中文本中包含的词汇频度改为了文本中包含的词汇个数。
原本的TF-IDF算法式子为其中tnidfi,j表示第i个词在第j个文本中的得分,ni,j是第i个词在第j个文本中出现的次数,k是第j个文本中的总词汇量,D为语料库中的文件总数,ti为第i个词汇,dj为第j个文本,j:ti∈dj表示包含词汇ti的文本数量。
改进后的算法式子为其中tnidfe,j记作推特关键词e在所处推特文本tj中的得分,T为选用的推特的总量,j表示推特文本序列号,ne,j表示第j个推特中关键词e的个数,tj表示第j个推特文本的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;君烁(上海)信息科技有限公司,未经华东师范大学;君烁(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110823501.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制冰装置及冰箱
- 下一篇:一种网络攻击检测方法、装置及存储介质
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置