[发明专利]一种语料分类的方法及系统有效

申请号：	202010151880.8	申请日：	2020-03-06
公开（公告）号：	CN111428030B	公开（公告）日：	2023-06-30
发明（设计）人：	白二伟;倪合强;宋志;姚寿柏	申请（专利权）人：	苏宁云计算有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/08;G06N3/0455
代理公司：	江苏圣典律师事务所 32237	代理人：	许峰;程化铭
地址：	210042 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语料分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种语料分类的方法及系统，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。根据语料及关键词模板，获取粗分类语料；根据所述粗分类语料，构建第一语料分类模型；根据预设要求及所述第一语料分类模型，获取细分类语料。

技术领域

本发明涉及语料分类领域，具体涉及一种语料分类的方法及系统。

背景技术

随着互联网及移动端的发展，网页中包含了大量的语料信息，同时用户在浏览网站时留下了海量的评论，在终端设备，用户使用语音控制时，也会留下大量的语音和文字。收集并分类这些信息，可以做数据推送及喜好分析等大量的数据处理工作。

现有做法主要包含下列两大类：

1、确定每个分类的基础句子，计算目标语句与基础句子之间的编辑距离，从而确定目标句子的类别，

2、直接使用标注好的分类语料进行模型训练，接着利用训练好的模型进行目标语料的分类。

在上述方法中，每个分类的基础句子的选择，如果不够全面，或者两种分类的句子比较相似，就会出现分类不准确的情况，直接用标注好的语料训练模型，尽管能够保证识别精度，但是存在获取语料成本大的问题。

发明内容

本发明的实施例提供一种语料分类的方法及系统，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种语料分类的方法，根据语料及关键词模板，获取粗分类语料；根据所述粗分类语料，构建第一语料分类模型；根据预设要求及所述第一语料分类模型，获取细分类语料。

结合第一方面，在第一方面的第一种可能的实现方式中，预设要求为迭代次数。

结合第一方面，在第一方面的第二种可能的实现方式中，预设要求为精度要求。

结合第一方面，在第一方面的第三种可能的实现方式中，根据所述粗分类语料，对关键词模板进行调整；根据所述调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集；对所述语料分类神经网络进行调整，获取第一语料分类模型。

结合第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，步骤一，将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入步骤二的次数；n的初始值为0；步骤二，判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

结合第一方面的第二种可能的实现方式，在第一方面的第五种可能的实现方式中，步骤一，将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入步骤二的次数；n的初始值为0；步骤二，判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司，未经苏宁云计算有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010151880.8/2.html，转载请声明来源钻瓜专利网。

上一篇：一种新型汽车车灯配件专用模具开模机
下一篇：一种三维地质钻孔模型的自动构建方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语料分类的方法及系统有效

专利文献下载