[发明专利]文本数据处理方法、设备和存储介质在审
申请号: | 202111481293.6 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114297378A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 包祖贻;张月;章波;李辰;曹俊杰 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈;孙明子 |
地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 设备 存储 介质 | ||
本发明实施例提供一种文本数据处理方法、设备和存储介质,该方法包括:先利用特征提取模型提取训练文本的第一文章向量,再根据第一文章向量和来源信息训练分类模型。之后,根据分类模型输出的分类结果,调整特征提取模型的模型参数,从而实现特征提取模型的预训练。接着,根据调整后的特征提取模型提取训练文本的第二文章向量,再根据第二文章向量和训练文本的评价信息训练评价模型。通过对特征提取模型的预训练,能够提升特征提取模型的特征提取能力,使其能够提取出包含训练文本的语义信息和来源信息的第二文章向量,再借助此信息丰富的第二文章向量训练评价模型,也能够提升评价模型的训练效果,保证评价模型对文本数据评价的准确性。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本数据处理方法、设备和存储介质。
背景技术
在不同领域中往往需要对文本质量进行评价。在实际生活中常见的文本质量评价场景包括:对学生的考试作文进行评分,对互联网中文本的质量进行评价,以响应于用户的搜索操作为用户提供高质量的文本等等。但对文本进行人工评价所需的时间成本较高,并且不同评价人员的评价标准存在差异,这也导致文本的评价结果存在波动。
为了克服上述问题,现有技术中往往会采用神经网络模型实现对文本质量的自动评价。基于此。因此,如何保证文本质量评价的准确性就成为一个亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种文本数据处理方法、设备和存储介质,用以保证文本评价的准确性。
第一方面,本发明实施例提供一种文本数据处理方法,包括:
根据特征提取模型,提取训练文本的第一文章向量;
根据所述第一文章向量和所述训练文本的来源信息,训练分类模型,以得到反映所述训练文本来源的分类结果;
根据所述分类结果,调整所述特征提取模型的模型参数;
根据调整后的特征提取模型,提取所述训练文本的第二文章向量;
根据所述第二文章向量和所述训练文本的评价信息,训练所述评价模型。
第二方面,本发明实施例提供一种文本数据处理方法,包括:
根据特征提取模型,提取训练作文文本的第一文章向量;
根据所述第一文章向量和所述训练作文文本的来源信息,训练分类模型,以得到反映所述作文文本来源的分类结果;
根据所述分类结果,调整所述特征提取模型的模型参数;
根据调整后的特征提取模型,提取所述训练作文文本的第二文章向量;
根据所述第二文章向量和所述训练作文文本的评分信息,训练所述评分模型。
第三方面,本发明实施例提供一种文本数据处理方法,包括:
根据特征提取模型,获取针对目标对象的训练评论文本的第一文章向量;
根据所述第一文章向量和所述训练评论文本对应的等级信息,训练分类模型,以得到反映所述训练评论文本情感类型的分类结果,所述等级信息反映用户对所述目标对象的好感度;
根据所述分类结果,调整所述特征提取模型的模型参数;
根据调整后的特征提取模型,获取所述训练评论文本的第二文章向量;
根据所述第二文章向量和所述训练评论文本对应的情感类型评分,训练所述评分模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111481293.6/2.html,转载请声明来源钻瓜专利网。