[发明专利]文本处理方法、装置、计算机设备以及存储介质有效

申请号：	202011357066.8	申请日：	2020-11-27
公开（公告）号：	CN112329435B	公开（公告）日：	2022-06-14
发明（设计）人：	程轶;赵瑞辉	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/30;G06N3/04;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置计算机设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种文本处理方法、装置、计算机设备以及存储介质，本申请属于人工智能领域。文本处理方法包括：获取内容文本以及与内容文本具有关联关系的答案文本；调用初始问题文本预测模型，对内容文本和答案文本进行问题文本预测处理，得到预测问题文本；根据预测问题文本与多跳问题类型的匹配程度，以及预测问题文本与内容文本的相关程度，确定反馈奖励量；获取答案文本的参考问题文本，根据反馈奖励量、参考问题文本和预测问题文本，训练初始问题文本预测模型，得到问题文本预测模型，问题文本预测模型是用于生成多跳问题文本。采用本申请，可以提高模型生成多跳问题的准确率。

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本处理方法、装置、计算机设备以及存储介质。

背景技术

多跳问题是指需要进行一定逻辑推理方可回答的较为复杂的一类问题。此前的问题生成研究中大多还停留在简单问题的生成，对于多跳问题生成的研究还比较少。因此，如何自动生成多跳问题成为研究热点。

目前，通过训练一个模型自动生成多跳问题，在进行训练模型时，基于传统的损失函数来确定模型损失，进而反向调整模型参数。由于传统的损失函数只考虑到了模型生成的预测问题与真实多跳问题之间的字符差异量，但字符差异量并不能保证模型生成的问题是多跳问题，导致模型的训练目标不准确，进而造成训练后的模型不能准确生成多跳问题。

发明内容

本申请实施例提供一种文本处理方法、装置、计算机设备以及存储介质，可以提高模型生成多跳问题的准确率。

本申请实施例一方面提供了一种文本处理方法，包括：

获取内容文本以及与所述内容文本具有关联关系的答案文本；

调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本；

根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；

获取所述答案文本的参考问题文本，根据所述反馈奖励量、所述参考问题文本和所述预测问题文本，训练所述初始问题文本预测模型，得到问题文本预测模型，所述问题文本预测模型是用于生成多跳问题文本。

本申请实施例一方面提供了一种文本处理装置，包括：

获取模块，用于获取内容文本以及与所述内容文本具有关联关系的答案文本；

调用模块，用于调用初始问题文本预测模型，对所述内容文本和所述答案文本进行问题文本预测处理，得到预测问题文本；

确定模块，用于根据所述预测问题文本与多跳问题类型的匹配程度，以及所述预测问题文本与所述内容文本的相关程度，确定反馈奖励量；

所述获取模块，还用于获取所述答案文本的参考问题文本；