[发明专利]基于LSTM的金融新闻倾向性分析方法在审
申请号: | 201811566674.2 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109614490A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 吕学强;董志安;游新冬 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 倾向性分析 金融新闻 名识别 文本上下文 相似度计算 扩展性 准确度 查询 公司代码 模型比较 训练文本 综合考虑 误判 引入 相似度 映射 抽取 文本 分类 | ||
本发明涉及一种基于LSTM的金融新闻倾向性分析方法,包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。本发明在公司名识别方法中加入百度百科查询作为识别的一个因素,效果更优且扩展性更好,解决了因产品过多而误判为非公司名的问题,关键句群抽取引入doc2vec模型,提高了相似度计算准确度,在表示句子时,使用Word2vec训练文本,同时引入TFIDF方法,充分利用了文本上下文的信息和词在文本的重要程度,可以取得很好的效果。
技术领域
本发明属于文本处理技术领域,具体涉及一种基于LSTM的金融新闻倾向性分析方法。
背景技术
金融新闻的负面倾向性会损害银行、金融机构的声誉,同时在一定程度上还会影响投资者的决策,特别是在当今信息时代,一件很小的事情有可能无限发酵,短时间内传播给无数受众,有可能因为一个新闻使一个企业涌现危机甚至面临破产,例如:2016年一篇名为乐视公司资金链断裂的新闻在网上传播,导致乐视网股价大幅缩水,当日收盘跌7.49%,因此提前感知风险对企业有重大意义。随着互联网的发展,越来越多的人可以很轻易地接触到金融新闻,仅靠人工筛选公司新闻难以达到实际需求,自动准确地识别金融新闻倾向性具有重要研究价值。
当前文本情感倾向性分析主要有基于统计和基于规则两大类。例如,利用含有否定词表、倾向性词表、程度词表的情感词表训练文本进行特征扩展,缺陷在于没有考虑上下文,效果差强人意;基于语义分析的方法,提取待分析句子相应的格,根据规则和词分析倾向性,缺陷在于定义规则比较复杂且准确率也比较低。有针对性的对金融新闻文本分类在国内外研究相对较少,方法复杂效果也一般。
公司名识别是金融新闻关键句群抽取很重要的研究点,新闻文本中公司名的识别效果对新闻文本情感的判别结果有较大影响,然而到目前为止,这方面的研究成果相对较少,现有技术中对于公司名识别有以下几种方法:(1)利用简称在新闻文本中第一次出现时定义的全称信息,基于规则的算法用于公司名简称的识别。但是金融新闻文本中很少出现公司全称,这使得该方法的应用范围大大受限。(2)以人工总结公司名的结构特征基于上下文信息和六个知识库,进行两次扫描实现对公司名的识别,该方法侧重于识别公司全称,用于识别简称的正确率和召回率都比较低。(3)首先从文本中取N元组,然后建立每个n元组与公司全称表的最优对齐关系,最后对每组对齐关系进行评价和筛选以确定N元组是不是公司简称。其严重依赖于公司全称表且无法识别新的公司名。(4)利用互联网搜索和上市公司名信息进行识别,该方法的公司名词典没有考虑公司股票代码和百度百科查询的信息,所以仍然有部分著名公司由于产品较多,在百度搜索返回结果里介绍产品的较多并未识别为公司名称。
由此可见,现有技术中已有的公司名识别方法,对于公司简称的识别准确率仍然比较低,有的方法中规则和知识库过于复杂,严重了影响方法的应用。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于LSTM的金融新闻倾向性分析方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基于LSTM的金融新闻倾向性分析方法,包括:识别公司名、抽取关键句群、基于LSTM对关键句群进行倾向性分析。
进一步地,所述分析方法包括:基于百度百科查询和公司名与公司代码映射进行公司名识别;使用doc2vec模型比较句子与标题相似度,同时综合考虑句子位置、领域动词、公司名信息进行关键句群提取;使用word2vec和TFIDF表示句子,使用LSTM模型对关键句群进行分类。
进一步地,识别公司名包括:
(1)将待处理新闻文本分解为N元组集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811566674.2/2.html,转载请声明来源钻瓜专利网。