[发明专利]一种基于Bi-LSTM与CRF融合的非结构化信息提取方法在审
申请号: | 202210913289.0 | 申请日: | 2022-07-28 |
公开(公告)号: | CN115310427A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 刘法;赵晓虎;白建亮;阎德劲;张卜心;焦烈;郑大安;赵俊龙;张郭勇;乔雪原;奂锐;邓欣;顾海燕;廖尚志;吴雪松 | 申请(专利权)人: | 中国电子科技集团公司第十研究所 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 孙元伟 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bi lstm crf 融合 结构 信息 提取 方法 | ||
本发明公开了一种基于Bi‑LSTM与CRF融合的非结构化信息提取方法,该方法包括对数据集进行分句、分词等预处理;对分词后的数据进行B‑I‑II‑O标签标注;建立字词向量表示;建立Bi‑LSTM神经网络层;建立CRF层;对抽取信息进行后处理。本发明通过使用Bi‑LSTM与CRF两个模型进行融合,可以对标签序列给予相应的约束,来解决信息提取输出逻辑混乱的问题,针对传统BIO标签标注对长实体特征不适用这一问题,提出B‑I‑II‑O标注方法,在标注上加入层级关系,提升长文本的信息提取效果,解决了目前非结构化数据难以处理、BIO标签针对长实体特征不适用的技术问题。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及到一种基于Bi-LSTM与CRF融合的非结构化信息提取方法。
背景技术
自然语言处理(Natural Language Processing,NLP)是人工智能和语言学的交叉学科,能实现对人类语言的各种智能化处理。NLP技术应用广泛,在金融、军事及医疗等许多领域发挥出重要商业价值。NLP的重要任务之一就是命名实体识别(Named EntitvRecognition,NER),它通常作为信息抽取的技术支撑。命名实体指人名、地名、组织机构名、日期等以名词为标识的特殊对象,而NER技术可以按照实际的需求从非结构化的文本信息中抽取出特定的实体。随着机器学习方法的广泛研究,NER的研究也开始融合了机器学习方法。基于传统机器学习的NER方法分为有监督方法和半监督方法。其中,有监督的方法包括HMM、ME、CRF和SVM,这四种方法都可以用于命名实体的序列化标注;半监督的方法有Bootstrapping,AdaBoost等,克服了缺少带标签的语料库和数据稀疏问题。此外,近年来深度学习在NLP领域中也解决了很多复杂的问题。
信息提取是指从一段文本中抽取指定的一类信息,并将其填入一个数据库中供用户查询使用的过程。目标是研究和实现文本信息的自动查找、收集汇总和存储,以期望把人们从大量、低效的文本阅读劳动中解放出来。信息提取的相关处理技术有信息检索、自动文摘、文本理解等。一般有三种方法:
第一种是完整解析。先将信息的标记形式完整解析,再提取关键信息。这种方式一般要使用标记解析器,信息的解析比较准确,但是提取的过程较慢。
第二种是直接搜索。无视标记,直接搜索关键的信息,这种方式提取过程简单,速度更快,但是准确性不高。
第三种是融合方法。融合第一和第二种方法,需要使用标记解析器和文本查找函数。
非结构化信息提取方法现有技术具有以下缺陷:
1.非结构化信息提取困难。传统数据挖掘虽然也进行了信息提取的研究,但通常针对结构化的数据,人工构建抽取规则,利用数据仓库工具完成,对非结构化的数据难以灵活处理。
2.BIO标签针对长实体特征不适用。对于长文本实体来说,BIO标注会使大量的文字属于同一类标签,不利于模型的学习,因而提取效果会很差。
发明内容
本发明的主要目的在于提供一种基于Bi-LSTM与CRF融合的非结构化信息提取方法,旨在解决目前非结构化数据难以处理、BIO标签针对长实体特征不适用的技术问题。
为实现上述目的,本发明提供一种基于Bi-LSTM与CRF融合的非结构化信息提取方法,所述方法包括以下步骤:
S1:对数据集进行分句、分词预处理;
S2:对分词后的数据进行B-I-II-O标签标注;
S3:建立字词向量表示;
S4:建立Bi-LSTM神经网络层,并利用所述Bi-LSTM神经网络层获得每个单词对应于每个标签的得分概率;
S5:建立CRF层,并利用所述CRF层获得最大概率的输出标注序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十研究所,未经中国电子科技集团公司第十研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210913289.0/2.html,转载请声明来源钻瓜专利网。