[发明专利]一种基于人工智能算法的相似上市企业检索分类方法及系统在审
申请号: | 202010550600.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111782806A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 薛逢源 | 申请(专利权)人: | 上海简答数据科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06Q40/06;G06Q40/00 |
代理公司: | 上海大为知卫知识产权代理事务所(普通合伙) 31390 | 代理人: | 何银南 |
地址: | 200000 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 算法 相似 上市 企业 检索 分类 方法 系统 | ||
1.一种基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述方法包括如下步骤:
S1、获取上市企业的财务季度报表和财务年度报表数据;
S2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;
S3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;
S4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;
S5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;
S6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
2.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,标题的公告分类通过选择合适的分类算法构建分类模型,提炼语料训练集并使用分类模型对每篇公告进行精准分类。
3.根据权利要求2所述的基于人工智能算法的相似上市企业检索分类方法及系统,其特征在于,所述分类算法包括KNN算法、聚类算法、决策树算法、朴素贝叶斯算法和Rocchio算法。
4.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,分类处理包括如下步骤:
S21、PDF文件解析;
S22、财务报表定位;
S23、表格识别;
S24、表格语义解析。
5.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S3中,人工智能模型包括全面的财务指标算法,可根据不同维度的财务指标自动化匹配有针对性的财务指标算法,并在计算完成后对现有数据进行清洗检测,去掉重复数据和冗余数据。
6.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法及系统,其特征在于,所述S5中,空间向量模型建立后还需进行模型标准化,所述模型标准化包括如下步骤:
S51、异常值检测,通过Z-score检测方法、DBSCAN基于密度的离群值检测方法和孤立森林异常值检测方法对异常值进行检测;
S52、缺失值处理,通过机器学习算法预测、相似样本的均值和可用特征的均值对缺失值进行填补;
S53、数据标准化,通过StandardScaler方法、MinMaxScaler方法和RobustScaler方法对数据进行标准化处理。
7.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S5中,公司距离矩阵的计算方法包括余弦距离算法、欧氏距离算法、杰卡德距离算法、马氏距离算法和兰式距离算法。
8.一种基于人工智能算法的相似上市企业检索分类系统,其特征在于,所述系统包括:
获取模块,用于对所有上市企业的不同维度的年度财务报表、季度财务报表进行获取;
财务数据提取及存储模块,用于将获取的所有财务数据进行分析整理,通过标题公告分类算法模型对所有公告进行精准分类,在分类完成后进行PDF文件解析,并清除清除冗余数据并对财务数据进行存储;
财务特征计算及提取模块,用于构建人工智能模型并提取存储模块中的财务数据和指标进行结构分析计算并将财务指标存入存储模块内;
公司距离矩阵计算模块,用于对财务数据进行标准化处理、建立数据空间向量并匹配最优算法计算出公司距离矩阵;
相似公司提取模块,用于根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海简答数据科技有限公司,未经上海简答数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010550600.0/1.html,转载请声明来源钻瓜专利网。