[发明专利]一种基于自监督学习的无监督机器阅读理解训练方法有效
申请号: | 202110805842.4 | 申请日: | 2021-07-16 |
公开(公告)号: | CN113627152B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 孙乐;边宁;韩先培;陈波 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/166;G06N20/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 机器 阅读 理解 训练 方法 | ||
1.一种基于自监督学习的无监督机器阅读理解训练方法,其步骤包括:
1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;利用统计信息对替换后的段落进行筛选,得到用于训练机器阅读理解模型的段落;其中筛选方法为:首先计算段落中所有词的TF-IDF值之和、计算被替换的词组中所有词的TF-IDF值之和、计算所述设定符号的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度;然后根据计算段落的分值,选取分值最高的前N条数据;其中α和β为超参数;
2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置。
2.如权利要求1所述的方法,其特征在于,还包括一个迭代数据筛选机制;该迭代数据筛选机制利用在一部分自监督数据上训练得到的机器阅读理解模型,对剩余的自监督数据进行打分,去除分数低于设定阈值的自监督数据,利用剩余的自监督数据进行下一个迭代轮次的训练;所述自监督数据为利用统计信息筛选后所得的段落。
3.如权利要求1所述的方法,其特征在于,所述设定条件包括:(1)字符串在段落中重复出现;(2) 字符串不包括停止词和标点符号;(3) 字符串的长度不大于5个词。
4.如权利要求3所述的方法,其特征在于,重复出现次数t满足2≤t≤4。
5.如权利要求1或2所述的方法,其特征在于,所述设定符号为非英语单词。
6.一种机器阅读理解模型获取答案的方法,其步骤包括:
1)对于语料库中的自然语言文本段落,首先查找该自然语言文本段落中符合设定条件的词或词组,并将其中的一个词或词组替换为设定符号;利用统计信息对替换后的段落进行筛选,得到用于训练机器阅读理解模型的段落;其中筛选方法为:首先计算段落中所有词的TF-IDF值之和、计算被替换的词组中所有词的TF-IDF值之和、计算所述设定符号的上下文词序列与答案位置上下文词序列之间的TF-IDF相似度;然后根据计算段落的分值,选取分值最高的前N条数据;其中α和β为超参数;
2)利用替换后的段落训练机器阅读理解模型;训练过程中,机器阅读理解模型根据段落中所述设定符号的上下文信息,从替换后的段落中定位一个连续的字符串填补所述设定符号所在位置;
3)将阅读理解任务中的问句输入训练后的机器阅读理解模型之前,将问句中的疑问词转换为所述设定符号并将该问句转换为陈述句;然后将该陈述句输入训练后的机器阅读理解模型,训练后的机器阅读理解模型根据该陈述句从给定的文本段落中抽取对应的答案。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110805842.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种经济适用型农村公路路面结构
- 下一篇:一种降解葡萄酒中氨基甲酸乙酯的方法