[发明专利]一种基于自监督学习的无监督机器阅读理解训练方法有效
申请号: | 202110805842.4 | 申请日: | 2021-07-16 |
公开(公告)号: | CN113627152B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 孙乐;边宁;韩先培;陈波 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/166;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 机器 阅读 理解 训练 方法 | ||
本发明公开了一种基于自监督学习的无监督机器阅读理解训练方法,其步骤包括:1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。本发明能够利用语料库自身的信息,直接学习机器阅读理解所需的能力,而不需要任何人工标注的阅读理解数据,也不需要利用启发式规则人工合成训练数据,所训练模型鲁棒性高。
技术领域
本发明涉及一种机器阅读理解模型训练方法,特别是一种基于自监督学习的无监督机器阅读理解模型训练方法,属于自然语言处理技术领域。
背景技术
机器阅读理解技术是指给定一个文本段落和一个相关的问题,利用机器学习的方法训练模型,使模型能够从文本段落中提取问题的答案。
机器阅读理解技术是构建智能信息服务的支撑技术之一。互联网文本数据包含着大量的信息和知识,但是这些数据以非结构化的方式储存。以信息检索为主的传统信息获取技术难以满足用户精细化和多样化的信息需求。以机器阅读理解为核心构建的自动问答系统为解决用户的精细化信息需求提供了有效手段。
机器阅读理解模型往往依赖大量人工标注的训练数据进行训练,难以直接应用于新的领域和低资源语言。现有的预训练语言模型并非为阅读理解任务所设计,预训练语言模型关注的上下文相关词预测能力与阅读理解所需的答案提取能力之间存在能力偏差。现有的基于合成数据的无监督机器阅读理解方法难以生成高质量的阅读理解数据,使用这些合成数据训练的机器阅读理解模型难以满足真实应用场景对性能和鲁棒性的要求。
自监督学习是指通过设计自监督训练任务,利用无标注数据本身的信息训练模型,使模型具备特定能力的技术。
发明内容
为更有效地训练无监督机器阅读理解模型,本发明提供了一种基于自监督学习的无监督机器阅读理解训练方法。
内容包括:(一)针对机器阅读理解的自监督学习任务及其训练方法;(二)用于无监督阅读理解模型的问句转换方法。针对机器阅读理解的自监督学习任务能够利用语料库自身的信息,直接学习机器阅读理解所需的能力。用于无监督阅读理解模型的问句转换方法与自监督学习相配合,解决无标注语料中的陈述句与阅读理解任务中的问句之间句法不一致的问题。
本发明所采用的技术方案概述如下:
一种基于自监督学习的无监督机器阅读理解训练方法,包括以下部分:
1)自监督学习任务的设定和训练:输入语料库中的每个自然语言文本段落,自监督学习任务首先寻找段落中重复出现的有意义的词或词组,并将其中的一个词或词组替换为设定的[MASK]符号(通常设定为特殊的字符,与一般英语单词不同);然后利用统计信息对替换后的段落进行筛选;最后训练机器阅读理解模型根据段落中[MASK]符号的上下文信息,从替换后的段落中定位一个连续的字符串(通过预测字符串的起止位置),填补段落中的[MASK]位置。
2)面向无监督机器阅读理解的问句转换方法:在模型测试和应用阶段,在将阅读理解任务中的问句输入经过上述训练的机器阅读理解模型之前,将问句转换为带有[MASK]符号的陈述句,从而保持模型训练阶段和测试(应用)阶段输入数据形式的一致性;在这一阶段的转换中,寻找问句中出现的疑问词,将疑问词替换为[MASK];再将转换后所得陈述句输入模型中,获取答案。
进一步地,技术1)部分选取的有意义的词或词组是指满足以下条件的字符串:(1)该字符串在文本段落中出现次数t满足2≤t≤4;(2)该字符串不包括停止词和标点符号;(3)该字符串的长度不大于5个词。通过该约束条件,使得被替换成[MASK]的词或词组包含更多的信息,从而有利于训练机器阅读理解模型。
进一步地,技术1)部分所涉及的数据筛选部分包括定义自监督数据的打分函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110805842.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种经济适用型农村公路路面结构
- 下一篇:一种降解葡萄酒中氨基甲酸乙酯的方法