[发明专利]一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法在审
申请号: | 202110865625.4 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113486141A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 戴良智;高宇栋;娄旭芳;王靖波;李明 | 申请(专利权)人: | 宁波薄言信息技术有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06F40/253;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 代峰 |
地址: | 315000 浙江省宁波市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 segabert 训练 模型 文本 简历 理财 公告 抽取 方法 | ||
1.一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法,其特征在于,包括以下步骤:
对中文长文本进行预处理;
利用SegaBert预训练模型对所述中文长文本进行预训练;
利用神经网络对产生的所述SegaBert预训练模型进行微调过程,在所述微调过程中,训练出能够进行特定信息抽取的深度神经网络模型;
对所述中文长文本抽取结果进行后处理。
2.如权利要求1所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述预处理包括:
获取待抽取的长文本为数据集,并按条数以6:2:2的比例划分为训练集、验证集和测试集;
设置字符[CLS]和[SEP],所述[CLS]插入到所述长文本的开头,并将所述[CLS]对应的输出向量作为所述长文本的语义表示,用于所述长文本分类,所述[SEP]插入到所述长文本的句子句尾,用于分割句子。
3.如权利要求1所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述预训练包括:
通过所述SegaBert预训练模型构建文本的位置索引和位置向量;
采用段落位置索引、句子位置索引和字位置索引,为输入序列中的每个字标示其三重位置信息。
4.如权利要求3所述的文本抽取方法,其特征在于,所述预训练还包括根据所述文本数据规模,将所述SegaBert预训练模型结构设置为12层Transformer编码器、所述每层Transformer编码器具有12个多头注意力和768维隐层。
5.如权利要求2所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述微调过程包括:
所述数据集按条数以8:1:1的比例划分为训练集a、验证集a和测试集a;
对所述数据集进行标记,标记内容为需要抽取的信息;
根据任务类型添加不同的线性层对所述SegaBert预训练模型进行微调。
6.如权利要求5所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述微调过程还包括根据所述特定信息的文本数据规模,将所述SegaBert预训练模型结构设置为8层Transformer编码器,所述每层Transformer编码器具有512维隐层和6个多头注意力。
7.如权利要求5所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述微调还包括所述SegaBert预训练模型以提取文本的标记内容为训练任务,并在所述验证集a上验证训练效果。
8.如权利要求1所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,所述后处理包括对训练得到的最优模型进行检验,查看文本抽取得到的内容是否正确与完整。
9.一种基于SegaBert预训练模型的简历抽取方法,采用权利要求1—8任一项所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,包括以下步骤:
将获取的中文简历进行预处理,按数量以8:1:1的比例划分为训练集b、验证集b和测试集b;
基于BIO标注方法对预处理后的中文简历进行多维度标注;
对SegaBert模型进行微调,增加线性层,且通过Softmax函数来预测文字实体状态的概率;
通过在所述训练集b上进行训练,并在所述验证集b上验证训练效果,得出最优模型;
通过最优模型进行对所述测试集b的简历信息抽取检验,查看抽取得到的内容是否正确与完整。
10.一种基于SegaBert预训练模型的理财公告抽取方法,采用权利要求1—8任一项所述的基于SegaBert预训练模型的文本抽取方法,其特征在于,包括以下步骤:
将获取的理财公告进行预处理,按数量以8:1:1的比例划分为训练集c、验证集c和测试集c;
基于BIO标注方法对预处理后的理财公告进行多维度标注;
对SegaBert模型进行微调,增加线性层,且通过Softmax函数来预测文字实体状态的概率;
通过在所述训练集c上进行训练,并在所述验证集b上验证训练效果,得出最优模型;
通过最优模型进行对所述测试集c的公告信息抽取检验,查看抽取得到的内容是否正确与完整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波薄言信息技术有限公司,未经宁波薄言信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110865625.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种茶籽榨油智能控温系统及方法
- 下一篇:一种防误吸电子烟