[发明专利]一种分类器的构建方法、混杂文本的分类方法及装置在审
申请号: | 201811278457.3 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109522943A | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 曾承;王金河;吕鹏 | 申请(专利权)人: | 武汉泰乐奇信息科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 混杂 分类器 文本 构建 短句 分类结果 分类 文本分割 分隔符 | ||
1.一种分类器的构建方法,其特征在于,包括:
步骤S1:将多个混杂文本进行拆分成短句,基于预先整理的特征词标注为训练集;
步骤S2:针对训练集,筛选出满足预设条件的特征词;
步骤S3:采用筛选出的特征词将短句表示为特征向量;
步骤S4:基于特征向量以及对应的训练集训练模型,获得每个拆分列的分类器,其中,每个拆分列对应一个类别。
2.如权利要求1所述的方法,其特征在于,步骤S1中,通过手动或者自动的方式进行标注,获得每个文本对应的训练集。
3.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
通过分词和统计词频,获得每个特征词的词频;
将每个特征词按照词频排序,将满足预设数量的特征词作为满足预设条件的特征词。
4.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
通过分词和统计词频,获得每个特征词的词频,
计算每个特征的重要程度;
根据每个特征词的词频和重要程度,确定特征词的评分,将评分高于预设值的特征词作为满足预设条件的特征词。
5.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
采用机器学习的方式筛选出符合预设条件的特征词。
6.如权利要求1所述的方法,其特征在于,步骤S4中的模型包括:
逻辑回归模型、决策树模型、支持向量机模型、朴素贝叶斯模型中的一种。
7.一种混杂文本的分类方法,其特征在于,包括:
获得待处理的混杂文本;
根据分隔符将混杂文本分割为多个短句;
将多个短句逐个输入如权利要求1至6任一项构建的分类器中,获得分类结果。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
当短句满足第一分类器时,则对该短句进行标记;
并继续将短句输入除第一分类器之外的其他分类器,判断所述短句是否同时满足其他分类器。
9.一种分类器的构建装置,其特征在于,包括:
训练集标注模块,用于将多个混杂文本进行拆分成短句,并基于预先整理的特征词标注为训练集;
特征筛选模块,用于针对训练集,筛选出满足预设条件的特征词;
特征表示模块,用于采用筛选出的特征词将短句表示为特征向量;
模型训练模块,用于基于特征向量以及对应的训练集训练模型,获得每个拆分列的分类器,其中,每个拆分列对应一个类别。
10.一种混杂文本的分类装置,其特征在于,包括:
获得模块,用于获得待处理的混杂文本;
分割模块,用于根据分隔符将混杂文本分割为多个短句;
分类模块,用于将多个短句逐个输入如权利要求9构建的分类器中,获得分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉泰乐奇信息科技有限公司,未经武汉泰乐奇信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811278457.3/1.html,转载请声明来源钻瓜专利网。