[发明专利]面向金融领域的泛化实体识别方法和系统在审
申请号: | 202110719181.3 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113569573A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 高楠;俞凯乐;周越;冯伟强;董嘉豪;葛婧 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 金融 领域 泛化 实体 识别 方法 系统 | ||
面向金融领域的泛化金融实体识别方法,包括:对于输入的金融相关领域的长句,先进行以逗号、分号为单位的短句划分;调用BiLSITM‑CRF模型对短句进行实体识别得到实体列表;确认实体的边界是否将实体词分开;查看分开的边界词是否满足组成实体的条件;在原句中删除已经被识别出的实体,得到删减后的句子,作为输入喂给rule规则的模式匹配函数;根据词典,对输入的短句进行分词和词性标注;找出所有标注为名词、动名词或者形名词的词;调用CN‑DBpedia API查找;if条件语句匹配。本发明还包括面向金融领域的泛化金融实体识别系统。本发明能提高金融领域下泛化实体的识别准确率,为相关管理机构及研究者在把握行业动态、科学决策、模型研究等方面提供支持。
技术领域
本发明涉及BiLSTM-CRF模型以及命名实体识别方法和系统,特别是面向金融领域的泛化实体识别方法和系统,可以从输入的金融语句中提取出相关领域的泛化实体。
背景技术
随着大数据处理技术的不断发展和全球金融的高速发展,金融信息呈现爆炸式增长,互联网金融也进入了大数据时代。投资者和决策者在面对浩瀚的互联网金融信息时常常苦于如何高效的获取需要关注的内容。使用自然语言处理技术对其进行解析已成为技术发展的必然趋势。而命名实体识别作为自然语言处理技术中的重要基础,为信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术提供了重要的基础技术支持,便于在金融领域进行更多的信息探索。因此,研发一个识别金融领域中的股票名称、产品名、公司名称等命名实体的方法,具有重要的现实意义和使用价值。
金融领域的命名实体识别存在以下几个问题:
(1)汉语分词和命名实体识别互相影响
(2)在金融领域缺乏高质量的有标注的语料库资源。
(3)金融领域中存在大量结构复杂的实体,比如组织名存在大量的嵌套、别名、缩略词等问题,没有严格的规律可以遵循,使得实体上下文信息难以获取,实体边界难以确认。
命名实体识别NER(Named Entity Recognition,简称NER)又称作专名识别,最早由第六届语义理解会议(Message Understanding Conference)提出,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。目前命名实体识别任务已经深入各种垂直领域,如医疗、金融等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。命名实体识别技术是信息抽取、信息检索、知识图谱、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。
命名实体识别的效果的好坏,可能会直接影响到后续研究的效果。在金融研报(以下简称研报)领域中,产品词、公司名称等是常见的命名实体,识别这些名实体能够有助于从研报中挖掘出更深层次的信息,对进行后续的研报研究及金融势态分析具有极其重要的意义。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,在金融领域的命名实体识别方面尚且缺少表现优秀的模型,而信息抽取、信息过滤、信息检索、问答系统等多种自然语言处理技术需要命名实体识别作为重要的基础技术支持,由此难以进行更多的金融领域的信息探索。
发明内容
本发明要克服现有技术的上述缺点,提出一种面向金融领域的泛化金融实体识别方法和系统。
本发明拟实现一个面向金融领域的泛化实体识别系统,提高金融领域下命名实体的识别准确率,帮助金融从业者更加快速高效地获取信息,从而能够提前把握行业动态,追踪行业发展趋势。
本发明的面向金融领域的泛化金融实体识别方法,包含以下步骤:
步骤1:对于输入的金融领域的长段落,先进行以逗号、句号为单位的短句划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110719181.3/2.html,转载请声明来源钻瓜专利网。