[发明专利]一种联合阅读课程学习机制的文本信息抽取系统及方法有效

申请号：	202110045286.5	申请日：	2021-01-14
公开（公告）号：	CN112364125B	公开（公告）日：	2021-06-25
发明（设计）人：	刘广峰	申请（专利权）人：	杭州识度科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/35;G06F40/295
代理公司：	杭州华知专利事务所(普通合伙) 33235	代理人：	束晓前
地址：	310000 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联合阅读课程学习机制文本信息抽取系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种联合阅读课程学习机制的文本信息抽取系统，包括：预处理模块：用于对输入文本进行纠错操作，降低噪声；粗粒度抽取模块：用于对预处理模块处理的文本进行实体识别和关系抽取，获取对应的实体集合和关系集合；细粒度抽取模块：用于对实体关系集合进行校验，输出预测结果集合；后处理模块：用于对预测结果集合进行规则处理，得到输入文本对应的结构化信息。本发明能够提升捕获实体和关系语境表示信息的能力；同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响，并进一步提升推理速度。

技术领域

本发明属于信息处理领域，特别涉及一种联合阅读课程学习机制的文本信息抽取系统及方法。

背景技术

在国务院颁发的《新一代人工智能发展规划》中，明确指出“关联理解与知识挖掘、知识图谱构建与学习、知识演化与推理、智能描述与生成等技术”为新一代人工智能关键共性技术体系的重点突破领域。其中涉及的知识图谱构建与学习、知识演化与推理两个关键模块都是以信息抽取技术为底层支撑。信息抽取技术可分为两种类型：pipeline方法和联合方法。其中，pipeline方法分为两步：第一步是命名实体识别，第二步是关系抽取；联合方法是一种端到端的抽取，直接抽取出对应的实体和关系对。

以文本为处理对象，信息抽取技术在工业界的应用中仍存在诸多难点亟待攻破，大致表现在如下方面：

（1）传统的pipeline方法存在误差传播问题，上一轮模型抽取的结果会影响下一轮模型的性能表现。

（2）联合方法针对开放域文本不能很好地处理多对多的情况，其训练得到的模型不能很好的捕获实体和关系的语境表示信息。

（3）目前流行的信息抽取模型结构复杂且推理计算量大，进一步降低了在工业界应用的实用性。

发明内容

为了解决上述问题，本发明提出了一种联合阅读课程学习机制的文本信息抽取系统及方法，能够提升捕获实体和关系语境表示信息的能力；同时由于所采取模型结构简单可以一定程度上降低pipeline方法误差传播的影响，并进一步提升推理速度。

本发明的技术方案如下所示：

一种联合阅读课程学习机制的文本信息抽取系统，包括：

预处理模块：用于对输入文本进行纠错操作，降低噪声；

粗粒度抽取模块：用于对预处理模块处理的文本进行实体识别和关系抽取，获取对应的实体集合和关系集合；

细粒度抽取模块：用于对实体关系集合进行校验，输出预测结果集合；

后处理模块：用于对预测结果集合进行规则处理，得到输入文本对应的结构化信息。