首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于文本分类的小样本数据描述规范化预处理方法有效

申请号：	201911072954.2	申请日：	2019-11-05
公开（公告）号：	CN110826326B	公开（公告）日：	2022-09-30
发明（设计）人：	肖楚琬;唐小峰;刘嘉;崔世麒;刘松福;苏析超;王鑫	申请（专利权）人：	中国人民解放军海军航空大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/295;G06F16/35;G06K9/62
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	264001 山东省***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本分类样本数据描述规范化预处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，具体步骤如下：

步骤一、构建标准实体数据表，标准实体数据表中包括若干类实体，每类实体由具有较强相关性的m列组成；

每类实体表示为：

O＝{c₁,c₂,...c_j,...c_m}

其中c_j(1≤j≤m)表示实体的第j个属性；

标准实体数据表的集合表示为：SR＝{O₁,O₂,...O_M}；M表示标准实体的类数，为正整数；

每类实体可关联一个或多个非规范描述样本，称为关联样本；

实体类O_i的关联样本表示为：

步骤二、针对某个待处理的目标数据表，分析该目标数据表的各列属性，将描述同一个实体概念的一列或多列进行组合，构成若干类实体；

目标数据表中各类实体的集合表示为：{T₁,T₂,...T_N}；N表示该目标数据表中包含的实体类数，为正整数；每类实体表示为：T＝{l₁,l₂,...l_i,...l_t}；其中l_i(1≤i≤t)表示实体T的第i个属性；

步骤三、将目标数据表中的每类实体中的每个列属性，与标准实体数据表中对应的各个列属性一一建立映射关联；

则映射表示为：l_i→c_j(1≤i≤t,1≤j≤m)，多个不同的列属性l_i可以映射到同一个标准列c_j，反之不成立；

步骤四、依次选择已完成映射的某类实体，将该类实体的各个属性列构造成子表T'作为检查对象；

步骤五、将子表T'中各实体案例分别构成目标描述O'，通过相似性匹配算法计算各实体案例与标准数据表中对应的每类实体之间的相似度a；

a∈[0,1]，其中0表示完全不同，1表示完全相同；

首先、依次选择子表T'中第一个实体案例构成目标描述O'，同时选择标准数据表中映射对应的实体O，及其相关的关联样本集SP^(O)；

然后，将目标描述O'中的每一属性列分别与标准实体O中映射对应列，以及关联样本集SP^(O)中包含的对应样本依次进行比较，计算各属性列与标准实体映射列，以及关联样本对应列的相似值；并取均值作为该实体案例的相似度；

最后，顺序选择子表T'中第二个实体案例构成目标描述O'，重复计算与标准数据表中映射实体，以及关联样本集的相似度；直至将子表T'中所有实体案例全部遍历完；

步骤六、针对子表T'，选择与标准数据表中相似度小于等于1，且目标描述与标准数据表并非完全一致的各个实体案例，标识为非规范描述项，并根据相似度的数值划分等级；

非规范描述等级包括：一级(a＝1但与标准描述非完全一致)、二级(a∈[0.5,1))、三级(a∈(0,0.5))和四级(a＝0)；

步骤七、遍历目标数据表中所有实体类，将所有非规范描述以不同的外观高亮标注，按等级从高到低给出修改建议。

2.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，所述的步骤四种的子表T'包含若干行，第一行是该实体类的所有属性；从第二行开始，每行数据内容为该类实体的每个实体案例。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军海军航空大学，未经中国人民解放军海军航空大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911072954.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种高频振动脱水餐厨垃圾处理设备
下一篇：光伏电站布局方法和装置

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top