[发明专利]基于预训练语言模型的古今汉语自然语言处理方法在审
申请号: | 202110957080.X | 申请日: | 2021-08-19 |
公开(公告)号: | CN113657119A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 王鑫;季紫荆 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李丽萍 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 训练 语言 模型 古今 汉语 自然语言 处理 方法 | ||
1.一种基于预训练语言模型的古今汉语自然语言处理方法,包括以下步骤:
(1)将中文语料输入预训练语言模型,所述的中文语料包括文言文和白话文中的一种或两种;
(2)在预训练阶段,根据语料类型分别设计多层级预训练任务,以捕获多层级语义信息;
(3)将预训练语言模型生成的语料表示输入卷积层,得到更多的可学习表示;
(4)获取通过卷积层得到的语料表示,根据语料类型,通过开关机制切换路径,选择后续采取的优化方法;
(5)输出最终的中文语料表示。
2.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(1)的具体过程是:根据中文的两个发展阶段,将中文语料划分为文言文和白话文,并将所述的中文语料输入BERT预训练语言模型中。
3.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(2)中,根据语料类型分别设计多层级预训练任务,包括以下两种情形中的一种或是两种:
1)针对文言文设计的多层级预训练任务,包括:词级别随机长度遮蔽任务随机选择长度为1到最大长度的目标进行遮蔽;将最大长度设置为3,即遮蔽目标最多由3个字组成;句子级别句子顺序预测任务使用来自同一文档的两个连续文段作为正例,并以50%的概率调换两个连续段落的顺序作为反例,避免文段主题的差别,促使模型专注于对句子间的连贯性进行学习;文档级别标题内容匹配任务采用的是句子顺序预测任务的二元分类任务,用于捕获高级语义信息,预训练阶段采用中国古代诗词数据集,使用标题内容匹配的诗词作为正例,并以50%的概率破坏标题与相应诗歌内容之间的匹配作为反例;
2)针对白话文设计的多层级预训练任务包括,包括:词级别全词遮蔽任务先执行中文分词,之后在遮蔽过程中会将同属于一个词的字符全部进行遮蔽;句子级别句子顺序预测任务与文言文相同;开头结尾对应任务同样是一种二元分类任务,预训练阶段使用人民日报数据集,经过预处理提取出每篇文章的开头和结尾,以开头结尾匹配的文段作为正例,并以50%的概率打乱开头和结尾的对应关系作为反例。
4.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(3)的具体过程包括:
将预训练语言模型生成的语料表示输入到一个卷积层,通过使用tanh激活函数,非线性地将词嵌入转换为更高级别的特征;对于字符向量xt,经过卷积层后其表示定义为:
xt=tanh(Wtxt+bt) (1)
式(1)中,Wt表示权重矩阵,bt表示偏置向量。
5.如权利要求1所述的基于预训练语言模型的古今汉语自然语言处理方法,其特征在于,步骤(4)中,切换路径的开关机制是:经过卷积层得到的语料表示,根据语料类型通过开关机制切换路径,选择不同的优化表示方法;
如果语料为文言文,则关闭通向句子级聚合的开关,打开通向更新门的开关;如果语料为白话文,则关闭通向更新门的开关,打开通向句子级聚合的开关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110957080.X/1.html,转载请声明来源钻瓜专利网。