[发明专利]一种期货领域的投研报告处理方法和系统有效
申请号: | 202210927239.8 | 申请日: | 2022-08-03 |
公开(公告)号: | CN115358201B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 杨胜利;吴福文;康维鹏;唐逐时 | 申请(专利权)人: | 浙商期货有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/289;G06F40/295;G06F40/30;G06F16/215;G06F16/35;G06F16/36;G06F16/84;G06Q40/06 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 唐超文 |
地址: | 310000 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 期货 领域 报告 处理 方法 系统 | ||
本申请涉及一种期货领域的投研报告处理方法,其中,该方法包括:采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,结构化数据可以通过关系型数据库进行管理;对结构化数据和半结构化数据,进行预处理得到第一语义数据,对非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;基于第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;根据期货结构化基础数据和产业链关联图谱,自动化进行进行投投研报告告选题以及自动化生成投投研报告。通过本申请,解决了期货领域传统投研方式可靠性较差的问题,实现了效率和可靠性。
技术领域
本申请涉及大数据领域,特别是涉及一种期货领域的投研报告处理方法、系统、计算机设备和计算机可读存储介质。
背景技术
随着大数据、人工智能等技术的发展,金融行业加快了谋求数字化转型的进程,期货行业也在技术的推动下逐渐探索应用场景的新方向,随之智能投资研究应运而生。
传统投研方式普遍存在前期信息采集耗时、内容不完全、数据质量低的缺陷,同时,研究员受自身知识体系和个体工作情绪影响,导致研究报告稳定性差、信息版权混乱等问题。
目前针对期货领域传统投研报告处理方法稳定性较差的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种期货领域的投研报告处理方法和系统,以至少解决相关技术中期货领域传统投研方式可靠性较差的问题。
第一方面,本申请实施例提供了一种期货领域的投研报告处理方法,所述方法包括:
采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,所述结构化数据可以通过关系型数据库进行管理;
对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据,对所述非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
基于所述第一语义知识数据和第二语义知识数据,构建期货结构化基础数据与产业链关联图谱;
根据所述期货结构化基础数据与产业链关联图谱,进行投研报告选题以及及自动化生成投研报告。
在其中一些实施例中,所述结构化数据为关系型数据,可通过关系型数据库进存储和管理;
所述半结构化数据为报表数据,其非关系型数据但具备固定的数据格式;
所述非结构化数据为不具备固定格式的文档数据。
在其中一些实施例中,对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据包括:
对于所述结构化数据:对其中的缺失数据进行忽略和/或补漏,对其中的重复数据进行合并和/或冗余剔除,以及对其中的噪声数据进行平滑处理;
对于所述半结构化数据,通过Xpath定向抽取模板对所述非结构化数据进行抽取,将数据表格转换为可存储的结构化库表数据;
集合所述预处理之后的结构化数据和所述结构化库表数据,得到所述第一语义知识数据。
在其中一些实施例中,所述对所述非结构化数据进行预处理包括:
提取所述非结构化数据中的文档对应的内容对象流,对所述内容对象流进行解码得到标准字符流;
对所述标准字符流进行信息提取得到目标信息,其中,所述目标信息包括:标题信息、事件信息、来源信息、正文文本信息、发布者信息。
在其中一些实施例中,对所述非结构化数据进行语义结构化处理,包括:
对非结构化数据中的文本进行分词,并通过预训练模型获取所述文本中各个分词的实体识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙商期货有限公司,未经浙商期货有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210927239.8/2.html,转载请声明来源钻瓜专利网。