[发明专利]一种联合阅读课程学习机制的文本信息抽取系统及方法有效
申请号: | 202110045286.5 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112364125B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 刘广峰 | 申请(专利权)人: | 杭州识度科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F40/295 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 阅读 课程 学习 机制 文本 信息 抽取 系统 方法 | ||
1.一种联合阅读课程学习机制的文本信息抽取系统,其特征在于,包括:
预处理模块:用于对输入文本进行纠错操作,降低噪声;
粗粒度抽取模块:用于对预处理模块处理的文本进行实体识别和关系抽取,获取对应的实体集合和关系集合;
细粒度抽取模块:用于对实体关系集合进行校验,输出预测结果集合;
后处理模块:用于对预测结果集合进行规则处理,得到输入文本对应的结构化信息;
所述纠错操作采用语法纠错工具来对输入文本进行纠错;
所述粗粒度抽取模块中实体识别的过程为:加载预先训练的Bert+CRF模型识别预处理后的文本的实体,获取实体集合;
所述粗粒度抽取模块中关系抽取的过程为:加载预先训练的基于BERT微调的多标签分类模型识别预处理的文本的对应的关系类别,得到关系集合;
所述细粒度抽取模块中输出预测结果集合的具体步骤为:
描述问的生成:针对获取的实体集合和关系集合,基于逻辑关系模板构建描述问集合;
答案检验:将构建的描述问集合与对应的预处理文本以预设格式输入到训练好的BertSim模型中,得到对应的预测结果集合。
2.根据权利要求1所述的联合阅读课程学习机制的文本信息抽取系统,其特征在于,所述后处理模块中结构化信息获取的具体过程为:针对细粒度抽取模块得到的预测结果集合preds,抽取出其中label为1的结果res,基于指定的逻辑关系模板解析res中的实体信息和关系信息得到最终的结构化信息result。
3.一种联合阅读课程学习机制的文本信息抽取方法,其特征在于,包括以下步骤:
S1:通过爬虫手段及收集公开数据集的方式构建用于信息抽取的数据,并以固定格式存储成定制数据集;
S2:针对生成的定制数据集中的字段,基于预设的转换规则转换生成实体识别训练集,并通过实体识别模型进行实体训练;针对定制数据集的字段进行转换生成关系抽取模型的训练集,并基于分类模型进行训练,获取实体关系对;
S3:针对抽取出的实体关系进行检验,具体包括描述问集合的构建和答案校验模型的训练,利用答案校验模型获取预测结果;
所述实体识别模型采用Bert+CRF的模型组合,所述分类模型采用基于BERT微调的多标签分类模型;
所述描述问生成过程为:针对定制数据集中每个样本对应的text和三元组信息spo_list基于逻辑关系模板构建描述问;
所述答案校验模型训练过程为:将构建的描述问集合与对应的text以固定格式text,描述问,0/1转换成本地训练数据,并以二分类模型进行训练。
4.根据权利要求3所述的联合阅读课程学习机制的文本信息抽取方法,其特征在于,所述步骤S1中的固定格式中包括的字段为:表示文本的text、表示对应的实体关系三元组字典列表的spo_list、表示列表内的每一个字典中的关系的predicate、表示主体的subject,表示客体的object、表示主体类型的subject_type,表示客体类型的object_type。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州识度科技有限公司,未经杭州识度科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045286.5/1.html,转载请声明来源钻瓜专利网。