[发明专利]一种基于Unilm优化语言模型的中文问题生成方法在审
申请号: | 202111244389.0 | 申请日: | 2021-10-25 |
公开(公告)号: | CN114328853A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 朱磊;皎玖圆;张亚玲;姬文江;晁冰;苗文青 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/126;G06F40/211;G06F40/247;G06F40/295;G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 unilm 优化 语言 模型 中文 问题 生成 方法 | ||
本发明公开了一种基于Unilm优化语言模型的中文问题生成方法,本发明在Unilm模型中加入每个单字和领域词汇的相对位置信息时设置了一种相对位置遮盖矩阵,将该矩阵融入模型不仅能学到更多的位置关系也可以在针对目标领域输入生成问题时具有更好的效果。同时使用copy机制,使得输出在一定程度上能从原句中拷贝,提高了输出语句和原句的相关性。为了提高训练数据样本,使用了回译与实体词替换相结合的策略实现数据的增强。领域预训练也被应用于模型用于增强模型在特定领域的推断能力。基于这三个策略同样的问答数据集本发明提出模型具有更好的效果。
技术领域
本发明属于面向中文自然语言处理中的问题生成技术领域,提供了一种 基于Unilm优化语言模型的中文问题生成方法。
背景技术
近年来信息技术和互联网技术迎来的爆炸式的大发展,产生了大量的信 息,同时在计算机的和大量的数据催生了人工智能的发展。这其中自然语言 处理是其中发展较为迅猛的一个,也是应用较为广泛的一个。最常见的有智 能对话系统,和机器翻译、打击垃圾邮件、信息提取、文本感情分析、个性 化推荐等。
在自然语言处理领域中,智能问答系统QG(Question Generation)是其中 的热点。智能问答系统主要应用于聊天机器人,在当今世界聊天机器人在我 们身边随处可见,最常见的聊天机器人就是各种智能手机中的语音助手。另 一个非常重要的应用领域是教育领域,由于当前学生在学习阶段往往会接触 大量的专业词汇和知识,为了能够更好的让学生记住专业知识。老师们往往 需要人工设置题目来帮助学生记忆。问题生成模型可以帮助老师快速生成题 目样本,最后再经过人工审查,能大幅度简化老师的工作,减轻教学压力。 综上所述,生成高质量的问题不但可以推进自然语言处理方面的研究,也可 以促进,心里治疗、教育等领域的发展。因此,研究可以提出高质量问题的 问答系统具有非常重要的现实意义。
近年来自注意力机制可以有效的从输入语料中获取上下文信息。通过大 量的文本对Transformer模型进行训练可以使得模型学习到自然语言中上下 文的隐含关系。例如Bert、RoBert、GPT、GPT2、Unilm等,这些模型都在 NLP领域取得了优秀的表现,其中Unilm语言模型由词嵌入层和12个 Transformer中的编码器(encoder)以及1个Transformer中的解码器层 (decoder)组成。并且这些模型可以针对不同的下游任务进行迁移,通过预 训练之后,下游任务使用少量的标注文本就可以让模型收敛,并且迁移后的 模型在下游任务具有更加优秀的表现。其中Unilm语言模型结合了其他模型 的各种遮盖训练思想,根据不同的具体任务,采用双向、从左到右、从右到 左、序列到序列,不同的遮盖思想会使得模型更擅长不同的方向。例如在文 本生成方面,使用从左到右的遮盖思想可以提高文本得生成能力。在提高输 入与输出的关联度方面有Pointer network等,(指针网络)Pointer network是Sequence to Sequence中encoder RNN和decoder RNN的扩展。通过对输 入的复制使得输出中有一部分来自于输入,提高了模型输出与输入的相关性, 但由于循环神经网络一些固有的缺陷导致指针网络并没有较好的发挥。
发明内容
本发明的目的是提供一种基于Unilm优化语言模型的中文问题生成方 法,通过回译和实体词替换进行数据增强,融合和相对位置遮盖嵌入,同时 加入特殊的copy机制,结合领域预训练,提高了模型在目标领域的生成精 度,更高效的生成有意义的问句。
本发明所采用的技术方案是,一种基于Unilm优化语言模型的中文问题 生成方法,具体包括如下步骤:
步骤1,使用从网络爬取的目标领域的语料对bert模型进行预训练,获 得参数,并将参数同步迁移至Unilm语言模型;
步骤2,使用回忆机制和随机替换实体词机制对中文问答数据做数据增 强处理,得到增强数据文本,将增强数据文本分为训练集和测试集;
步骤3,构建包含相对位置遮盖矩阵的编码器层
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111244389.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:带电钩头组件
- 下一篇:用于共享上下文相关的媒体内容的用户界面