[发明专利]一种基于扩充语料库神经网络的政策文件信息提取方法有效
申请号: | 202011033636.8 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112257442B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 李军锋;廖敏;张磊;冯梅;向彦任;李济;万勤;陈乔松;曹宏剑;胡高浩 | 申请(专利权)人: | 重庆生产力促进中心;重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 郭桂林 |
地址: | 401120*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 扩充 语料库 神经网络 政策 文件 信息 提取 方法 | ||
1.一种基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,包括以下步骤:
构建政策文件语料库;
基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型;
利用政策文件信息提取模型对目标政策文件进行提取,其中,构建政策文件语料库包括:
对现有开源语料库进行筛选,保留与政策文件相关性大于80%的语料,并将现有开源语料库中的其它语料删除;
收集现有政策文件,整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集,并对现有政策文件中出现的一机构对应多名称的语料进行标注;
对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中,得到初始政策文件语料库;
对包含政策文件的网页进行爬取,人工阅读后提取政策文件信息并将其加入初始政策文件语料库,得到扩充后政策文件语料库;
对扩充后政策文件语料库进行标注,完成政策文件语料库的构建,其中,
基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括以下步骤:
对构建的政策文件语料库进行预处理,生成训练集和验证集;
基于BERT预训练模型读取训练集和验证集数据,生成包含序号、中文文本以及类别的第一列表;
对第一列表进行特征转换得到第一特征值;
将第一特征值输入BERT预训练模型进行模型训练;
利用Adam优化函数进行优化训练,获取最佳模型参数,得到政策文件信息提取模型;其中,
利用Adam优化函数进行优化训练,获取最佳模型参数包括以下步骤:
采用Adam优化函数,利用训练中的模型对每个epoch在验证集上进行验证,每个epoch后调整模型参数并生成每个epoch对应的F1分数;
对F1分数进行判定,根据判定结果,确定最佳模型参数,其中,判定包括:
若F1分数大于0.95,则停止训练,保存此时的模型参数,此时的模型参数即为最佳模型参数;
若F1分数不大于0.95,则对F1分数做进一步判定,若F1分数大于0.9且相邻两个epoch生成的F1分数变化小于千分之一,则停止训练,保存此时的模型参数即为最佳模型参数,反之,则继续进行模型训练;其中,
利用训练中的模型对每个epoch在验证集上进行验证包括:对连续多个epoch对应的F1分数进行比较,若F1分数没有提升,则设置早停系数,停止模型训练。
2.根据权利要求1所述的基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,对扩充后政策文件语料库进行标注包括:
基于THULAC中文词法分析工具,同时多人标注,取多人标注后的交集作为标注结果。
3.根据权利要求1所述的基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,训练集和验证集中含有的数据量比值为(7~8):(2~3)。
4.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,利用政策文件信息提取模型对目标政策文件进行提取包括以下步骤:
政策文件信息提取模型读取目标政策文件信息数据,生成包含序号、中文文本以及类别的第二列表;
对第二列表进行特征转换,得到第二特征值;
将第二特征值输入政策文件信息提取模型进行信息提取,得到提取结果。
5.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括利用Mask LM和Next Sentence Prediction两种策略进行模型训练。
6.根据权利要求1至2任一项所述的基于扩充语料库神经网络的政策文件信息提取方法,其特征在于,政府各部门领导名单语料集包括领导姓名、工作地方、单位级别以及职务。
7.一种政策文件语料库构建方法,其特征在于,包括以下步骤:
对现有开源语料库进行筛选,保留与政策文件相关性大于80%的语料,并将现有开源语料库中的其它语料删除;
收集现有政策文件,整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集,并对现有政策文件中出现的一机构对应多名称的语料进行标注;
对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中,得到初始政策文件语料库;
对包含政策文件的网页进行爬取,人工阅读后提取政策文件信息并将其加入初始政策文件语料库,得到扩充后政策文件语料库;
对扩充后政策文件语料库进行标注,完成政策文件语料库的构建,其中,
基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括以下步骤:
对构建的政策文件语料库进行预处理,生成训练集和验证集;
基于BERT预训练模型读取训练集和验证集数据,生成包含序号、中文文本以及类别的第一列表;
对第一列表进行特征转换得到第一特征值;
将第一特征值输入BERT预训练模型进行模型训练;
利用Adam优化函数进行优化训练,获取最佳模型参数,得到政策文件信息提取模型;其中,
利用Adam优化函数进行优化训练,获取最佳模型参数包括以下步骤:
采用Adam优化函数,利用训练中的模型对每个epoch在验证集上进行验证,每个epoch后调整模型参数并生成每个epoch对应的F1分数;
对F1分数进行判定,根据判定结果,确定最佳模型参数,其中,判定包括:
若F1分数大于0.95,则停止训练,保存此时的模型参数,此时的模型参数即为最佳模型参数;
若F1分数不大于0.95,则对F1分数做进一步判定,若F1分数大于0.9且相邻两个epoch生成的F1分数变化小于千分之一,则停止训练,保存此时的模型参数即为最佳模型参数,反之,则继续进行模型训练;其中,
利用训练中的模型对每个epoch在验证集上进行验证包括:对连续多个epoch对应的F1分数进行比较,若F1分数没有提升,则设置早停系数,停止模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆生产力促进中心;重庆邮电大学,未经重庆生产力促进中心;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033636.8/1.html,转载请声明来源钻瓜专利网。