[发明专利]书面语体类型的分类方法、装置、存储介质及电子设备在审
申请号: | 202110598080.5 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113420785A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 罗茵;逯燕玲;周建设;史金生;刘竞洋;陈硕 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清控智云知识产权代理事务所(特殊普通合伙) 11919 | 代理人: | 管士涛 |
地址: | 100101 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 书面 语体 类型 分类 方法 装置 存储 介质 电子设备 | ||
1.一种书面语体类型的分类方法,其特征在于,所述方法包括:
获取待分类书面语体样本;
将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应;
根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型。
2.根据权利要求1所述的方法,其特征在于,所述至少一个子分类模型包括:
因子子分类模型集合以及中值距离子分类模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
预先构建所述因子子分类模型集合;
相应的,所述预先构建所述因子子分类模型集合具体包括:
对预先配置的训练集进行因子分析,获取分析数据;
根据所述分析数据与预先配置的矩阵计算公式,确认至少一个矩阵;
对所述至少一个矩阵分别进行均值聚类,获取所述因子子分类模型集合以及至少一个均值聚类距离值。
4.根据权利要求3所述的方法,其特征在于,所述将所述待分类书面语体样本输入预先配置的书面语体类型分类模型,获取至少一个分类结果,其中,所述书面语体类型分类模型包括至少一个子分类模型,所述子分类模型是指经多个书面语体训练样本预先训练过的分类模型,所述至少一个子分类模型与所述至少一个分类结果对应之前,所述方法还包括:
预先构建所述中值距离子分类模型;
相应的,所述预先构建中值距离子分类模型,具体包括:
获取不同书面语体类型对应的至少一个中值向量;
根据预先配置的中值距离计算公式,计算输入的训练集距离所述至少一个中值向量的中值距离,确定最小的中值距离对应的书面语体类型为当前样本的书面语体类型,以此构建所述中值距离自分类模型。
5.根据权利要求4所述的方法,其特征在于,所述中值距离计算公式为:
其中,A表示A类书面语体类型,ZAn为所述待分类书面语体样本距离所述A类书面语体类型的中值距离,所述tin表示第n个样本且第i个指标变量,zAi表示A类中第i个指标变量的中值向量,p值指标变量,1≤n≤846,n为正整数,1≤i≤9,i为正整数。
6.根据权利要求4所述的方法,其特征在于,所述分类结果为四个;对应的,所述根据所述至少一个分类结果,确定所述待分类书面语体样本的书面语体类型,具体包括:
当至少三个所述分类结果一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
当两个所述分类结果一致,且另外两个所述分类结果不一致时,确定当前所述一致的分类结果对应的书面语体类型为所述待分类书面语体样本的书面语体类型;
当所述分类结果两两一致时,确定所述中值距离与所述至少一个均值聚类距中的最小值,所述最小值对应的书面语体类型即为所述待分类书面语体样本的书面语体类型。
7.根据权利要求2所述的方法,其特征在于,所述预先构建所述因子子分类模型集合之前,所述方法还包括:
预先对构建所述因子子分类模型集合的数据进行预处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110598080.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种即插即用开关操作机构
- 下一篇:一种专用于海上风电的72.5kV环网柜