[发明专利]文本信息抽取框架、方法、计算机设备和存储介质在审
申请号: | 202110590753.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113204955A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 孙泽懿;徐成国;徐凯波;杨康 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06N20/00 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息 抽取 框架 方法 计算机 设备 存储 介质 | ||
1.一种文本信息抽取框架,其特征在于,包括:
规则判定模块,根据预设规则将文本进行规则抽取得到对应的假设标签和假设分布;
机器学习模块,根据所述假设标签拟合预测模型并据此对所述文本进行句子抽取;
交互学习模块,将所述机器学习模块的抽取结果作为所述规则判定模块的更新依据,再次利用所述规则判定模块进行规则提取,进行迭代交替修正训练;
预测模型获取模块,所述预测模型的KL散度损失函数持续减小并反向传播更新所述预测模型,当所述预测模型拟合稳定或所述迭代交替修正训练的次数达到设定的超参数时,获取此时的所述预测模型;
信息抽取模块,将待抽取文本输入训练后的所述预测模型,并输出抽取信息。
2.根据权利要求1所述的文本信息抽取框架,其特征在于,所述KL散度损失函数由所述机器学习模块得到的所述抽取结果的统计分布和所述规则判定模块得到的假设分布通过KL散度计算得到,所述KL散度损失函数具体为:
其中,p(xi)为所述机器学习模块得到的抽取结果的统计分布,q(xi)为所述规则判定模块得到的假设分布。
3.根据权利要求1所述的文本信息抽取框架,其特征在于,所述机器学习模块包括:
抽取结果预测单元,根据所述假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码所述文本特征并预测所述抽取结果,
标注单元,根据所述抽取结果对所述文本进行标注,并据此来修正所述规则判定模块。
4.根据权利要求1所述的文本信息抽取框架,其特征在于,所述信息抽取模块将待抽取文本输入至所述预测模型,输出对应所述抽取信息的向量,将对应所述向量通过softmax算法或log-liner算法得到具体所述抽取信息。
5.一种文本信息抽取方法,应用于上述权利要求1-4任意一项所述的文本信息抽取框架,其特征在于,包括以下步骤:
规则判定步骤,根据预设规则,将文本进行规则抽取并得到对应的假设标签和假设分布;
机器学习步骤,根据所述假设标签拟合预测模型并据此对所述文本进行句子抽取;
交互学习步骤,将所述机器学习步骤得到的抽取结果作为所述规则判定步骤的更新结果,重复所述规则判定步骤,进行迭代交替修正训练;
预测模型获取步骤,所述预测模型的KL散度损失函数持续减小并反向传播更新所述预测模型,当所述预测模型拟合稳定或所述迭代交替修正训练的次数达到设定的超参数时,获取此时的所述预测模型;
信息抽取步骤,将待抽取文本输入至训练后的所述预测模型,输出抽取信息。
6.根据权利要求5所述的文本信息抽取方法,其特征在于,所述KL散度损失函数由所述机器学习步骤得到的所述抽取结果的统计分布和所述规则判定步骤得到的假设分布通过KL散度定义得到,所述KL散度损失函数具体为:
其中,p(xi)为所述机器学习步骤得到的所述抽取结果的统计分布,q(xi)为所述规则判定步骤得到的假设分布。
7.根据权利要求5所述的文本信息抽取方法,其特征在于,所述机器学习步骤具体包括:
抽取结果预测步骤,根据所述假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码所述文本特征并预测所述抽取结果;
标注步骤,根据所述抽取结果对所述文本进行标注,并据此修正所述规则判定步骤。
8.根据权利要求5所述的文本信息抽取方法,其特征在于,所述信息抽取步骤具体包括:
将待抽取文本输入至所述预测模型,并输出对应的抽取信息的向量,将对应的所述向量通过softmax算法或log-liner算法得到具体所述抽取信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110590753.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置