[发明专利]问题生成方法、模型训练方法、装置、设备和存储介质在审
申请号: | 202011024969.4 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112100335A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 李雅美;蓝翔;郑辉煌;张留杰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 阎敏;郭丽祥 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问题 生成 方法 模型 训练 装置 设备 存储 介质 | ||
本申请公开了一种问题生成方法、模型训练方法、装置、设备和存储介质,涉及人工智能领域,尤其涉及深度学习、自然语言处理领域。具体实现方案为:根据用于生成问题的文本内容,获得至少一个关键词和每个关键词对应的概率;根据文本内容、关键词和概率,分别获得与每个关键词对应的输入序列;分别将与每个关键词对应的输入序列输入问题生成模型,获得关于每个关键词的问题。本申请实施例能够针对文本内容获得更多不同方面的问题,丰富提问内容。
技术领域
本申请涉及人工智能领域,尤其涉及深度学习、自然语言处理领域。
背景技术
随着机器阅读技术的发展,可以通过计算机算法阅读一段或者一句文字,实现对自然语言的处理。问题生成是指根据给定的文本段落生成相关问题,在自然语言处理技术中是一个重要的问题。早期的问题生成方法大都需要依赖人工制定的规则模板。这些方法的成功与否,关键在于是否存在精心设计的陈述句到疑问句的转换规则,而这些转换规则通常是基于深层的语言知识。
由于早期的问题生成方法强烈依赖人为设计的转换和生成规则,设计者的知识面往往专注于某一领域,因此所涉及的问题转换和生成规则也仅针对某一知识领域,很难适用于其它指示领域。因此,需要一种能够针对给定文本从尽可能多的角度进行提问,生成问题语句的方法。
发明内容
为了解决现有技术中至少一个问题,本申请实施例提供了一种问题生成方法、模型训练方法、装置、设备和存储介质。
第一方面,本申请实施例提供一种问题生成方法,包括:
根据用于生成问题的文本内容,获得至少一个关键词和每个关键词对应的概率;
根据文本内容、关键词和概率,分别获得与每个关键词对应的输入序列;
分别将与每个关键词对应的输入序列输入问题生成模型,获得关于每个关键词的问题。
第二方面,本申请实施例提供一种模型训练方法,包括:
根据第一样本文本,获得第一样本文本中的第一样本关键词以及第一样本关键词的概率;
根据第一样本关键词、第一样本关键词的概率和第一样本文本,获得每个第一样本关键词对应的第一样本输入序列;
将第一样本文本输入序列输入待训练问题生成模型,获得输出结果;
根据输出结果和参考问题,获得问题生成损失;
根据问题生成损失,优化待训练问题生成模型,获得问题生成模型。
第三方面,本申请实施例提供一种模型训练方法,包括:
根据第二样本文本、样本问题和关键词提取规则,获得第二样本文本中的第二样本关键词;
利用第二样本文本、样本问题和第二样本关键词,训练待训练关键词提取模型,得到关键词提取模型。
第四方面,本申请实施例提供一种问题生成装置,包括:
关键词模块,用于根据用于生成问题的文本内容,获得至少一个关键词和每个关键词对应的概率;
输入序列模块,用于根据文本内容、关键词和概率,分别获得与每个关键词对应的输入序列;
问题模块,用于分别将与每个关键词对应的输入序列输入问题生成模型,获得关于每个关键词的问题。
第五方面,本申请实施例提供一种模型训练装置,包括:
第一样本模块,用于根据第一样本文本,获得第一样本文本中的第一样本关键词以及第一样本关键词的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011024969.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于超高压锅炉的对流式再热器
- 下一篇:一种任务处理方法及装置