[发明专利]一种面向金融领域的知识抽取方法有效
申请号: | 201711407789.2 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108153729B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 文卫东;刘健博 | 申请(专利权)人: | 武汉数博科技有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/205;G06F40/143;G06F16/31;G06F16/33 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430071 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 金融 领域 知识 抽取 方法 | ||
本发明涉及了一种面向金融领域的知识提取方法。首先将需要提取的金融领域文本内容进行预处理,采用统一的标签式语言描述待提取文本内容,并对文本中的金融实体内容进行识别;然后采用可定制的知识提取模块从语义层面对文本内容进行快速实时的提取,并对提取结果进行可信度评分,同时,引入专家知识模块对识别结果进行修正。最后按照特定存储格式将提取的知识进行存储。本发明面向金融领域,给出了一种高效准确的金融知识提取方法,为金融领域的自动化和智能化提供基础数据支撑。
技术领域
本发明涉及金融知识抽取技术领域,主要涉及金融领域指标、关系和事件等知识的自动提取。
背景技术
随着计算能力的增强和互联网的普及,计算机与金融领域的结合也越来越密切,现阶段在自动化交易系统、智能投顾、欺诈识别等场景下已经取得的一定的成果。在金融领域,迅速、全面、准确地获取有价值的行业信息是决定一个企业成败的关键。近些年,随着互联网和金融行业的快速发展,每天都有大量的金融文本产生,面对着海量的公司年报、公告、新闻,其内容分散,数据稀疏,无结构化信息等特点逐渐凸显。如何在数据爆炸的信息中高效找到有价值的知识,将有价值的无结构化信息进行半结构化或结构化是首先需要解决的问题,而信息抽取则是知识发现的核心之一。信息抽取作为文本处理的一项主要技术,目的是将特定的事实信息(Factual Information)从文本数据中抽取出来。将非结构化的信息结构化是信息抽取要解决的主要问题,结构化信息可以使人们能更好地从无限多的文本中排除无用信息从而获得真正所需的信息。为了达到信息抽取的目的,单是对实体进行识别还不足以满足实际应用的需求。从相关文本中获取重要指标,同时判断出存在于这些实体之间的关系和实体相关的事件获取更为关键,这就是信息抽取的重要子任务之一——知识抽取。知识抽取是指从数字资源中识别、发现和提取出概念、类型、事实及其相关关系、约束规则,以及进行问题求解的步骤、规则的过程。金融领域知识抽取较为复杂,行业术语较多,但是相关抽取结果对决策者或投资者的商业计划和决定产生一定影响,因而高效准确的知识抽取将为金融活动中的个人或企业提供极大价值的商业信息,在许多金融场景下都有广阔的应用前景。如:在自动化交易系统中,可以将抽取的知识进行量化,达到收益最大化。在机构信用评级中,可以收集评级影响因素进行自动收集,快速对机构信用进行评级。
目前在金融领域中,文本内容的知识抽取主要依靠人工判断,分析人员一般需要阅读大量的相关文档(如:年报、公告、行业分析报告、新闻等),然后从中获取关键信息,为决策提供依据。这种手工作业的方式效率较低,且依赖于从业人员的经验,学习门槛较高,不利于企业业务进一步拓展。
通过观察可以发现计算机具有自动处理相关金融文本的潜能,使用计算机实现文本中的知识抽取,第一步就是要理解文本中表达出的信息对应的含义。计算机领域中的自然语言处理技术(NLP)是作为一门融合语言学、计算机科学、数学等学科特点于一体的技术,自然语言处理(NLP)技术的研究任务主要是使计算机可以使用正常生活中人类的语言和人类进行互动,让人机之间的交互像人与人之间交流的那样方便。通过自然语言处理的相关技术可以从文本中取得半结构化的知识描述,然后由半结构化知识而构造的金融领域知识图谱,领域知识图谱在解决金融领域相关问题时具有重要意义。
针对这一问题,本专利主要目标是:面向金融领域,根据特定需求快速对文档进行知识抽取。
发明内容
本发明主要面向金融领域,针对特定文本自动提取文本中相关实体间关系、事件以及指标,为金融领域的相关机构和企业提供决策依据。
步骤如下:
一种面向金融领域的知识抽取方法,其特征在于,包括:
步骤1.根据需求确定数据来源,获得相关的源文件,产生待处理数据集合D={d1,d2,...,dn},其中di表示第i个文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉数博科技有限责任公司,未经武汉数博科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711407789.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种关键词确定方法及装置
- 下一篇:生僻字处理方法、计算设备及计算机存储介质