[发明专利]文本信息抽取框架、方法、计算机设备和存储介质在审
申请号: | 202110590753.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113204955A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 孙泽懿;徐成国;徐凯波;杨康 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06N20/00 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息 抽取 框架 方法 计算机 设备 存储 介质 | ||
本发明涉及一种文本信息抽取框架、方法、计算机设备和存储介质。其中,该框架包括:规则判定模块根据预设规则将文本进行规则抽取得到对应的假设标签和假设分布,机器学习模块根据假设标签拟合预测模型并据此对文本进行句子抽取,交互学习模块将机器学习模块的抽取结果作为规则判定模块的更新依据,再次利用规则判定模块进行规则提取,进行迭代交替修正训练,预测模型获取模块依据设定条件完成对预测模型的训练,信息抽取模块对待抽取文本进行信息抽取。本发明通过设置交互学习的框架,利用先验经验或规则将无监督学习转换为准监督学习的场景,有效进行海量文本的信息抽取工作,降低了从事文本信息提取的人工成本。
技术领域
本申请涉及文本特征挖掘与提取技术领域,特别是涉及文本信息抽取框架、方法、计算机设备和存储介质。
背景技术
当进行一些行业研究时,经常需要从海量文本中抽取有用的信息以生成所需行业研究报告,而传统抽取方案主要基于对关键词和短语的抽取,对句子级别(sentence-level)抽取性能较差,行业研究报告的生成却更多依赖sentence-level的表示,如“AA相较于BB,精度提升了CC%”,这样的表达如果使用关键词抽取方案,表述不如sentence-level直白。
目前针对相关技术中抽取性能差的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本信息抽取框架、方法、计算机设备和存储介质,结合机器学习和规则判定进行文本信息的提取,以至少解决相关技术抽取性能差的问题。
第一方面,本申请实施例提供了一种文本信息抽取框架,包括:
规则判定模块,根据预设规则将文本进行规则抽取得到对应的假设标签和假设分布;
机器学习模块,根据假设标签拟合预测模型并据此对文本进行句子抽取;
交互学习模块,将机器学习模块的抽取结果作为规则判定模块的更新依据,再次利用规则判定模块进行规则提取,进行迭代交替修正训练;
预测模型获取模块,预测模型的KL散度损失函数持续减小并反向传播更新预测模型,当预测模型拟合稳定或迭代交替修正训练的次数达到设定的超参数时,获取此时的预测模型;
信息抽取模块,将待抽取文本输入训练后的预测模型,并输出抽取信息。
在其中一些实施例中,KL散度损失函数由机器学习模块得到的抽取结果的统计分布和规则判定模块得到的假设分布通过KL散度计算得到,KL散度损失函数具体为:
其中,p(xi)为机器学习模块得到的抽取结果的统计分布,q(xi)为规则判定模块得到的假设分布。
在其中一些实施例中,机器学习模块包括:
抽取结果预测单元,根据假设标签,利用encoder模型进行对应文本特征的提取,再利用decoder模型解码文本特征并预测抽取结果,
标注单元,根据抽取结果对文本进行标注,并据此来修正规则判定模块。
在其中一些实施例中,信息抽取模块将待抽取文本输入至预测模型,输出对应抽取信息的向量,将对应向量通过softmax算法或log-liner算法得到具体抽取信息。
第二方面,本申请实施例提供了一种文本信息抽取方法,应用于第一方面的文本信息抽取框架,包括以下步骤:
规则判定步骤,根据预设规则,将文本进行规则抽取并得到对应的假设标签和假设分布;上述预测规则可以包括抽取时间范围、地点、人物等
机器学习步骤,根据假设标签拟合预测模型并据此对文本进行句子抽取;该步骤将无监督学习转换为伪标记半监督学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110590753.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置