[发明专利]训练语料集构建方法、文本处理方法及装置在审

申请号：	202210688808.8	申请日：	2022-06-17
公开（公告）号：	CN115033753A	公开（公告）日：	2022-09-09
发明（设计）人：	贾承勋;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司
主分类号：	G06F16/9032	分类号：	G06F16/9032;G06F16/906;G06F40/211;G06F40/242;G06F40/279;G06F40/289;G06F40/30
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	李琪
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练语料构建方法文本处理装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供训练语料集构建方法、文本处理方法及装置，其中训练语料集构建方法包括：根据获取到的至少一个原始样本语料，构建短语词典，其中，短语词典包括短语和短语对应的短语特征信息；将第一原始样本语料中的目标短语替换为相似短语，获得扩展样本语料，其中，第一原始样本语料为至少一个原始样本语料中包括目标短语的任一原始样本语料；根据原始样本语料和扩展样本语料，构建训练语料集。丰富了训练语料集，增加了训练语料集中包括的语义信息，且训练语料集的质量较高。

技术领域

本申请涉及人工智能技术领域，特别涉及一种训练语料集构建方法。本申请同时涉及一种文本处理方法，一种训练语料集构建装置、一种文本处理装置、一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术的发展，人工智能技术随之蓬勃发展，人工智能(AI，ArtificialIntelligence) 是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向。

现有技术中，可以预先获取训练语料，利用人工智能技术，训练文本处理模型，通过训练好的文本处理模型对文本进行自动处理，然而文本处理模型的训练需要大量训练语料支撑，才能取得较好的文本处理结果，通过网络等手段直接获取到的训练语料较为缺乏和单一，导致文本处理模型的训练结果不够理想。

发明内容

有鉴于此，本申请实施例提供了一种训练语料集构建方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理方法，一种训练语料集构建装置、一种文本处理装置、一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种训练语料集构建方法，包括：

根据获取到的至少一个原始样本语料，构建短语词典，其中，短语词典包括短语和短语对应的短语特征信息；

将第一原始样本语料中的目标短语替换为相似短语，获得扩展样本语料，其中，第一原始样本语料为至少一个原始样本语料中包括目标短语的任一原始样本语料；

根据原始样本语料和扩展样本语料，构建训练语料集。

可选地，其特征在于，根据获取到的至少一个原始样本语料，构建短语词典，包括：

对至少一个原始样本语料进行分词，获得至少两个分词词语；

根据预设语法规则，从至少两个分词词语中抽取短语，并确定短语的短语特征信息；

根据短语和短语对应的短语特征信息，构建短语词典。

可选地，所述将第一原始样本语料中的目标短语替换为相似短语，获得扩展样本语料之前，还包括：