[发明专利]一种数据处理方法、装置、计算机设备及存储介质有效
申请号: | 202111435202.5 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114386390B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 谭瑞;吴海英;王洪斌;蒋宁;权佳成;陈旭阳 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,本申请实施例通过从待训练文本中确定预设语句;将待训练文本作为训练数据以及预设语句作为标签数据输入至第一预设模型进行迭代训练,输出第一目标语句向量;基于预设自注意力模型从待训练文本中选取上文摘要语句集和下文摘要语句集;将上文摘要语句集和下文摘要语句集作为训练数据以及预设语句作为标签数据输入至第二预设模型进行迭代训练,输出第二目标语句向量;根据第一目标语句向量和第二目标语句向量的第一差异对预设自注意力模型的模型参数进行更新,直至确定第一模型收敛;通过第一模型收敛后的预设自注意力模型从待处理文本中选取摘要数据。极大提升了数据处理的效率。
相关申请的交叉引用
本申请要求于2021年11月25日提交的申请号为2021114155525的中国申请的优先权,其在此处于所有目的通过引用将其全部内容并入本文。
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
自动文摘的过程主要是总结文本文档中心意思,目的是创建包含原始文档主要内容的摘要。在新闻、金融、医疗等领域具有意义重大的应用场景。特别是现在的互联网信息时代,信息过载使得人们迫切地希望能在最短的时间内了解最多且最有用的文字信息,文本摘要自动生成技术使得这一项需求得以实现。
在现有技术中,自动文本摘要技术可以按照一定的权重,从原文中抽取能表达文章中心思想或者文章中比较重要的一条或几条句子,然后组合起来形成摘要。在对现有技术的研究和实践过程中,本申请的发明人发现,现有技术中,往往需要大量的人力预先对文本进行人工标注之后,才能实现自动文本摘要技术,导致成本较高且处理的周期较长,数据处理的效率较低。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提升数据处理的效率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种数据处理方法,包括:
从待训练文本中确定预设语句,所述待训练文本包括多条语句;
将作为训练数据的所述待训练文本以及作为标签数据的所述预设语句输入至第一预设模型进行迭代训练,输出第一目标语句向量;
基于预设自注意力模型从所述待训练文本中选取上文摘要语句集和下文摘要语句集;
将作为训练数据的所述上文摘要语句集和下文摘要语句集以及作为标签数据的所述预设语句输入至第二预设模型进行迭代训练,输出第二目标语句向量;
根据所述第一目标语句向量和第二目标语句向量的第一差异对所述预设自注意力模型的模型参数进行更新,并返回基于预设自注意力模型从所述待训练文本中选取上文摘要语句集和下文摘要语句集,直至根据所述第一差异确定第一模型收敛。
一种数据处理装置,包括:
确定单元,用于从待训练文本中确定预设语句,所述待训练文本包括多条语句;
第一输入单元,用于将作为训练数据的所述待训练文本以及作为标签数据的所述预设语句输入至第一预设模型进行迭代训练,输出第一目标语句向量;
第一选取单元,用于基于预设自注意力模型从所述待训练文本中选取上文摘要语句集和下文摘要语句集;
第二输入单元,用于将作为训练数据的所述上文摘要语句集和下文摘要语句集以及作为标签数据的所述预设语句输入至第二预设模型进行迭代训练,输出第二目标语句向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111435202.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机倒飞状态的仿真模型构建方法
- 下一篇:一种检测污水管堵塞的防堵装置