[发明专利]一种分类分级清单智能打标方法有效

申请号：	202111102610.9	申请日：	2021-09-18
公开（公告）号：	CN113705728B	公开（公告）日：	2023-08-01
发明（设计）人：	卢红波;张林成	申请（专利权）人：	全知科技（杭州）有限责任公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/284
代理公司：	杭州奇炬知识产权代理事务所(特殊普通合伙) 33393	代理人：	贺心韬
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分类分级清单智能方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分类分级清单智能打标方法，其特征在于，

S1.读取不同数据库的表和字段信息，处理为格式统一的文本行，其中，文本行的内容包括字段名称，字段注释，表名称和表注释；同时读取所有标签；对文本行作预处理，包括去停用词和标点符号；再对文本行作中、英文分词，对标签作中文分词；其中，分词后的英文通过英译中的词库翻译为对应的中文；此时，得到分词的文本行，记TEXT，根据文本行的内容分为字段信息和表信息，分别记TEXT_FIELD和TEXT_TABLE；分词的标签根据是否是具体字段分为标签和背景标签，分别记LABEL和LABEL_BG；并假设标签的数量为CLASS_NUM；至此，文本行和标签均已分词；

S2.文本-标签匹配；遍历TEXT，对每条TEXT的TEXT_FIELD，遍历LABEL，记录文本字段信息和标签匹配的词的个数，得到长度为CLASS_NUM的列表；记列表中的最大值为MATCH_MAX；根据MATCH_MAX是否唯一，分为以下2种情形：

S2.1. MATCH_MAX唯一，TEXT粗分类的标签为MATCH_MAX对应的标签；

S2.2. MATCH_MAX不唯一，获取匹配数为MATCH_MAX的所有标签，记MATCH_MAX_LABEL，标签的数量记MATCH_MAX_LABEL_NUM，对TEXT的TEXT_TABLE，遍历MATCH_MAX_LABEL中的TEXT_TABLE，记录文本表信息和背景标签匹配的词的个数，得到长度为MATCH_MAX_LABEL_NUM的列表；记列表中的最大值为MATCH_TABLE_MAX；根据MATCH_TABLE_MAX是否唯一，也分为以下2种情形：

S2.2.1. MATCH_TABLE_MAX唯一，TEXT粗分类的标签为MATCH_TABLE_MAX对应的标签；

S2.2.2. MATCH_TABLE_MAX不唯一，获取S2.2中匹配数为MATCH_TABLE_MAX的所有标签，记MATCH_TABLE_MAX_LABEL，对TEXT的TEXT_FIELD，遍历MATCH_TABLE_MAX_LABEL的LABEL，记录“字段匹配的字数”和“匹配字数占LABEL总字数的比例”，分别记MATCH_CHAR和MATCH_CHAR_RATIO，记录MATCH_CHAR+MATCH_CHAR_RATIO的值，记为匹配值MATCH_VALUE，得到匹配值的列表，选择最高匹配值对应的标签作为粗分类的标签；至此，我们按照字段信息匹配数，表信息匹配数和匹配字数的优先级，完成了对大部分文本行的粗分类；

S3. 根据实际情况，应对S2文本粗分类中某些标签对应的文本行数量极少的情况，对这些文本行作少量的数据增广；

S4.基于fastText的模型训练和短文本分类；对于S3中的短文本，将文本行按照fastText算法的读入格式作格式转换；并设置置信度的阈值，记THRESHOLD；遍历TEXT，根据置信度结果与THRESHOLD的对比对文本打标。

2.根据权利要求1所述的一种分类分级清单智能打标方法，其特征在于：所述的步骤S4中，基于fastText的模型包括N-gram和分层softmax。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于全知科技（杭州）有限责任公司，未经全知科技（杭州）有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111102610.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种黑臭水体异物分离装置
下一篇：一种适用于缓坡地形的节能型大棚水肥一体化系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种分类分级清单智能打标方法有效

专利文献下载