[发明专利]一种基于新闻大数据的自动选股方法在审
申请号: | 201710076418.4 | 申请日: | 2017-02-13 |
公开(公告)号: | CN107025264A | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 张铁军 | 申请(专利权)人: | 闽南师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q40/04 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 王新生 |
地址: | 363000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新闻 数据 自动 方法 | ||
技术领域
本发明涉及信息检索领域,具体地讲就是一种基于新闻大数据的自动选股方法。
背景技术
现在,量化投资在管理资产中起到越来越重要的作用,大家开始利用计算机设备对历史股票量价数据作为数据资源,通过数学模型进行验证,用于对股票进行量化投资。现有方案关注个股特点分析,没有从行业关注度角度进行自动选股。由于新闻导向同时也会对股票数据的走向具有一定的预警作用(“本发明采用词汇统计分析法挖掘新闻的情感倾向,完成自动选股”)。简单地说,新闻内容的情感倾向可分为两种情形:正面情感和负面情感,正面情感采用新闻内容中的正面情感词汇比率表示,负面情感采用新闻内容中的负面词汇比率表示。如何利用新闻内容体现出的情感倾向,使其服务于量化投资,是本发明要解决的技术问题。
发明内容
本发明的目的是提供一种基于新闻大数据的自动选股方法,首先将情感词汇和行业词汇存入存储器,上述情感词汇以及行业词汇来源于专业汉语财经词典;通过RSS实时获取互联网财经新闻,每小时更新一次;将当天的新闻内容通过服务器解析分析当天的新闻内容,新闻内容分析包括两个子部分,1)新闻内容的情感维度分析,计算得到新闻内容的情感倾向;2)新闻内容的行业维度分析,计算得到新闻内容体现的行业关注度;利用情感倾向、行业关注度计算股票排名,选择排名靠前的股票作为投资对象。
将新闻内容解析为词汇的集合,即 ,t代表词汇总数目),其中包括r个正面情感词汇,s个负面情感词汇,第i天内,正面词汇比率为,该比率代表新闻的正面情感;负面词汇比率为,该比率代表新闻的负面情感;
第i天内,行业x的关注度为,计算方法为 ,其中,y代表新闻内容中行业x相关词汇数目,t为总词汇数目;
在第i天内,设定行业x的正面关注度为 ,= ×;设定行业x的负面关注度为,= × ;
在过去一个月内,设定行业x的累计热度(关注度)为 ,= ,其中{i=1,…,m},m为当月的天数;
每个月的最后一个天晚23:00后,计算本月所有行业的月累计热度,其中{x=1,…, 24},共24个行业;依据{x=1,…, 24}的数值从高到低,完成24个行业的排序;本方法选择排名第一的行业的全部公司股票作为下一个月的投资对象。
本发明的理论基础是基于以下分析:情感词汇具有心理学意义,正面词汇代表了积极心理暗示;负面词汇代表了人类消极心理暗示;例如,“涨停、良好、丰收”等词汇体现了新闻内容中的积极态度,而“跌停、疲软、萎靡”等词汇体现了新闻内容中的消极态度。当新闻中负面词汇比率增大时,市场展现了悲观消极的预期,股市下行风险增大。行业词汇具有较强的行业指向性,例如,“不良贷款”主要指向银行业的上市公司,“乘用车”主要指向汽车行业的上市公司。当新闻中某种行业词汇的比率增加时,市场热点转向该行业,该行业的上市公司将会受到更多的投资者关注。
本发明通过新闻大数据的情感维度、行业维度选股;现有方案关注个股特点分析,没有从行业热度角度进行自动选股。本方案通过词汇关联确认新闻内容体现的情感倾向和行业关注度,是对现有技术中的创新。新闻大数据自动选股优点:1)新闻情感(正负面情感强度)与股市、上市公司之间联动关系的理论基础已经得到广泛证实。2)自动提取情感倾向与行业关注度,全自动排名筛选股票。
附图说明
图1是本发明的流程图。
图2是本发明执行算法的流程图。
具体实施方式
下面,结合本发明的主要流程以及执行算法流程图,对本发明作进一步详细说明。
关键词:情感词汇表,行业词汇表。情感词汇指的是情感词汇列表中的词汇,包括正面词汇和负面词汇两个部分。行业词汇表针对每个行业的常见关键词进行汇编后得到的词汇表。上述情感词汇表和行业词汇表来源于《专业汉语财经词典》,申请人已编纂成册。
举例来说,正面词汇包含:成功、出色、得天独厚、引领、进步、创新等。负面词汇包括失败、损失、不足、差评、召回、低迷等。
行业词汇,举例来说,银行业中,常见的关键词为利息、贷款、银监会、央行、利率、信贷等。房地产行业中,常见的关键词置业、首套房、住宅、地块、商品房、楼市等。
行业公司,是指银行业的代表公司为民生银行、招商银行、南京银行、平安银行等。房地产行业的代表企业为万科A、保利地产、华夏幸福、碧桂园等。
本过程通过RSS监控公开新闻源获得,例如,人民网RSS,新华网RSS等。为了保障实时性,本方法每个小时对新闻更新一次。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于闽南师范大学,未经闽南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710076418.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:酒瓶(福字扁壶)
- 下一篇:搜索方法、装置、系统、以及命令转换器的生成方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置