[发明专利]一种智能分析实时新闻对金融市场影响的方法在审
申请号: | 201710674605.2 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107403017A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 刘川;梁雪萍 | 申请(专利权)人: | 上海数旦信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海三方专利事务所31127 | 代理人: | 吴玮,李美立 |
地址: | 200235 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 分析 实时 新闻 金融市场 影响 方法 | ||
1.一种智能分析实时新闻对金融市场影响的方法,其特征在于步骤如下:
a.抓取原始新闻并进行分词,分词后按新闻时间将词划入不同时间窗并进行词频统计,在检测出主题词后根据主题词的相似度将新闻聚类至话题下;
b.评价话题的当前热度,并建立热度预测模型对未来热度进行预测;
c.对新闻中的命名实体进行识别,以得到与话题相关的投资标的;
d.选择研究话题,判断研究话题对相关的投资标的的影响是否明显并分析其影响程度,然后对投资标的的涨跌情况进行分类。
2.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤a具体包括:
a1.实时抓取原始新闻,剔除异常的URL地址和异常内容后提取出提取新闻元数据;
a2.将新闻元数据与词库中的词进行逐一匹配,直至将新闻元数据中的所有词分开,按新闻时间将词划入不同的时间窗,对各个时间窗内不同词的词频进行统计,并去掉词频最高和最低的词;
a3.通过词频计算各词在时间窗中的词频变化速率,基于词频变化速率和词频计算词的热度,以热度大于一定值的词以构成主题词库,公式如下:
Vij=Cij/Cijavg
Pij=logVij+K*log(Cij/Cjavg)
其中,Pij表示词i在时间窗j中的热度,Vij表示词i在时间窗j中的变化速率,Cij表示词i在时间窗j中的词频,Cijavg表示词i在前j-1个时间窗的平均词频,Cjavg表示时间窗j内的最高词频,K取值在-1~1之间;
a4.将每个新闻的主题词库逐一与已有话题的主体词库进行相似度比较,将相似的新闻加入已有话题中,并将该新闻的主题词库与已有话题的主体词库相合并;若不相似,则将该新闻作为一个新话题,并将该新闻的主题词库作为新话题的主体词库,所述的相似度为新闻词频向量和话题词频向量之间的欧式距离,所述的新闻词频向量和话题词频向量由主体词的词频构成。
3.如权利要求1所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的步骤b具体包括:
b1.通过每个话题的热度因子计算出话题的当前热度;
b2.建立历史新闻及新闻话题样本库,将样本库拆分为训练集和测试集,基于训练集得到话题热度预测模型,并通过话题热度预测模型预测未来的话题热度值。
4.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的热度因子包括数量因子、影响力因子、用户因子和价值因子,
所述的数量因子指话题中新闻的总数量;
所述的影响力因子由话题中新闻的网站来源、作者、是否置顶决定;
所述的用户因子由话题中新闻的阅读量、评论、跟帖等用户反馈决定;
所述的价值因子由话题中新闻的内容的商业价值、市场价值决定;
计算话题当前热度的公式如下:
话题的当前热度=K1*数量因子+K2*影响力因子+K3*用户因子+K4*价值因子,K1、K2、K3、K4均取值为0.25。
5.如权利要求3所述的一种智能分析实时新闻对金融市场影响的方法,其特征在于所述的话题热度预测模型通过深度学习方法获得,以话题的热度因子作为话题热度预测模型的输入参数,以未来的话题热度值为话题热度预测模型的输出参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海数旦信息技术有限公司,未经上海数旦信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710674605.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件上传方法及装置
- 下一篇:航班数据和旅客数据的处理方法及装置