[发明专利]一种联合阅读课程学习机制的文本信息抽取系统及方法有效
申请号: | 202110045286.5 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112364125B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 刘广峰 | 申请(专利权)人: | 杭州识度科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F40/295 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 阅读 课程 学习 机制 文本 信息 抽取 系统 方法 | ||
本发明涉及一种联合阅读课程学习机制的文本信息抽取系统,包括:预处理模块:用于对输入文本进行纠错操作,降低噪声;粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。本发明能够提升捕获实体和关系语境表示信息的能力;同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响,并进一步提升推理速度。
技术领域
本发明属于信息处理领域,特别涉及一种联合阅读课程学习机制的文本信息抽取系统及方法。
背景技术
在国务院颁发的《新一代人工智能发展规划》中,明确指出“关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术”为新一代人工智能关键共性技术体系的重点突破领域。其中涉及的知识图谱构建与学习、知识演化与推理两个关键模块都是以信息抽取技术为底层支撑。信息抽取技术可分为两种类型:pipeline方法和联合方法。其中,pipeline方法分为两步:第一步是命名实体识别,第二步是关系抽取;联合方法是一种端到端的抽取,直接抽取出对应的实体和关系对。
以文本为处理对象,信息抽取技术在工业界的应用中仍存在诸多难点亟待攻破,大致表现在如下方面:
(1)传统的pipeline方法存在误差传播问题,上一轮模型抽取的结果会影响下一轮模型的性能表现。
(2)联合方法针对开放域文本不能很好地处理多对多的情况,其训练得到的模型不能很好的捕获实体和关系的语境表示信息。
(3)目前流行的信息抽取模型结构复杂且推理计算量大,进一步降低了在工业界应用的实用性。
发明内容
为了解决上述问题,本发明提出了一种联合阅读课程学习机制的文本信息抽取系统及方法,能够提升捕获实体和关系语境表示信息的能力;同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响,并进一步提升推理速度。
本发明的技术方案如下所示:
一种联合阅读课程学习机制的文本信息抽取系统,包括:
预处理模块:用于对输入文本进行纠错操作,降低噪声;
粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;
细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;
后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息。
优选的,所述纠错操作采用语法纠错工具来对输入文本进行纠错。
优选的,所述粗粒度抽取模块中实体识别的过程为:加载预先训练的Bert+CRF模型识别预处理后的文本的实体,获取实体集合;
所述粗粒度抽取模块中关系抽取的过程为:加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别,得到关系集合。
优选的,所述细粒度抽取模块中输出预测结果集合的具体步骤为:
描述问的生成:针对获取的实体集合和关系集合,基于逻辑关系模板构建描述问集合;
答案检验:将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中,得到对应的预测结果集合。
优选的,所述后处理模块中结构化信息获取的具体过程为:针对细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州识度科技有限公司,未经杭州识度科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045286.5/2.html,转载请声明来源钻瓜专利网。