[发明专利]三元组样本的生成方法、装置、电子设备及存储介质在审

申请号：	202010587031.7	申请日：	2020-06-24
公开（公告）号：	CN111858883A	公开（公告）日：	2020-10-30
发明（设计）人：	李弘宇;刘璟	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F40/289;G06F40/30;G06K9/62
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	田宏宾
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	三元样本生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种三元组样本的生成方法、装置、电子设备及存储介质，涉及基于人工智能的自然语言处理技术领域、以及深度学习技术领域。具体实现方案为：获取三元组样本中的段落文本；从段落文本中提取至少一个答案片段；基于段落文本和各答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到三元组样本。本申请中，由于预先训练的问题生成模型基于预训练的语义表示模型训练得到，该问题生成模型的准确性非常好，因而，采用该问题生成模型生成的(Q,P,A)三元组样本的准确性非常高。

技术领域

本申请涉及计算机技术领域，尤其涉及基于人工智能的自然语言处理技术领域、以及深度学习技术领域，具体涉及一种三元组样本的生成方法、装置、电子设备及存储介质。

背景技术

在自然语言处理(Natural Language Processing；NLP)中，问题生成技术指给定一个自然文本段落P，在段落P中找到某个可提问的答案片段A，并针对答案片段A进行提问，从而生成问题Q。利用问题生成技术，可以从海量的自然文本当中，以生成的方式得到大规模的(Q,P,A)三元组。这些三元组可为段落排序、阅读理解模型的训练提供大量的训练样本，节约人工标注样本的成本；同时也可以按照键值对(key-value；kv)检索的方式，支持搜索、问答系统。

现有技术中的(Q,P,A)三元组的样本获取方法，主要利用循环神经网络(Recurrent Neural Network；RNN)、长短期记忆(Long Short-Term Memory；LSTM)网络或者Transformer等传统sequence-to-sequence模型结构，直接在目标领域的数据集进行训练。然后采用训练好的模型从提供的段落P和答案片段A，生成对应的生成问题Q。

但是，目标领域的数据集的数据量较少，导致训练的模型的效果不理想，进而采用该训练的模型去生成对应的生成问题Q时准确性较差，导致现有方式生成的三元组(Q,P,A)样本的准确性较差。

发明内容

为了解决上述问题，本申请提供了一种三元组样本的生成方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种三元组样本的生成方法，其中所述方法包括：

获取三元组样本中的段落文本；

从所述段落文本中提取至少一个答案片段；

基于所述段落文本和各所述答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到所述三元组样本；所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。

根据本申请的另一方面，提供了一种三元组样本的生成装置，其中所述装置包括：

获取模块，用于获取三元组样本中的段落文本；

答案提取模块，用于从所述段落文本中提取至少一个答案片段；

问题生成模块，用于基于所述段落文本和各所述答案片段，分别采用预先训练的问题生成模型生成相应的问题，以得到所述三元组样本；所述预先训练的问题生成模型基于预训练的语义表示模型训练得到。

根据本申请的再一方面，提供了一种电子设备，包括：