[发明专利]一种纠正新闻分类的自动分类方法在审
申请号: | 201410536020.0 | 申请日: | 2014-10-11 |
公开(公告)号: | CN104361010A | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 冯晓燕 | 申请(专利权)人: | 北京中搜网络技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/66 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 纠正 新闻 分类 自动 方法 | ||
1.一种纠正新闻分类的自动分类方法,其特征在于,所述方法包括
(1)设置配置项;
(2)标注样本;
(3)建立词典;
(4)训练模型;
(5)模型测试;
(6)分类纠错预测。
2.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(1)包括设置配置文件,其包括分类个数、分类名字和分类标签编号。
3.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(2)包括明确分类的定位以及分类间的交叉定位,根据分类定位进行样本数据的标注。
4.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(3)包括根据样本数据,均匀取各分类190标注样本,通过分词和过滤,建立词典。
5.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(3)包括
(3.1)按分类加载各分类的样本数据;
(3.2)对加载数据进行切词;
(3.3)统计词的idf,降序排列;
(3.4)去除停用词、单字词和名字词;
(3.5)降序输出,生成词典。
6.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(4)包括均匀取各分类150条样本,进行模型训练。
7.如权利要求6所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(4)包括
(4.1)加载配置文件,获得分类信息;
(4.2)加载词典;
(4.3)加载各分类的标注样本数据,编号从0.txt-149.txt,共150条数据,并对样本数据进行切词;
(4.4)样本数据向量化,向量化的顺序依据词典的顺序;
(4.5)将向量化的样本数据推入训练器进行训练;
(4.6)输出训练模型,最优训练模型mdf和13个次优训练模型mdf_Second[13]。
8.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(5)包括取剩下的40条数据做测试。
9.如权利要求8所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(5)包括
(5.1)加载配置文件,获得分类信息;
(5.2)加载词典;
(5.3)加载决策模型,共14个模型;
(5.4)加载各分类的标注样本数据,编号从150.txt-189.txt,共40条数据,并对样本数据进行切词;
(5.5)样本数据向量化,向量化的顺序依据词典的顺序;
(5.6)将向量化的样本数据推入模型,进行预测;
(5.7)统计预测准确性;
(5.8)通过验证。
10.如权利要求1所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(6)包括对已有标签的数据进行分类预测。
11.如权利要求10所述的一种纠正新闻分类的自动分类方法,其特征在于,所述步骤(6)包括
(6.1)加载配置文件和词典;
(6.2)加载决策模型,共14个决策模型;
(6.3)对输入的数据进行向量映射;
(6.4)将一组向量推入最优模型mdf,预测标签为iLabel1,将该组向量推入次优模型mdf_Second[iLabel1],预测标签为iLabel2;
(6.5)根据加载的配置文件,将标签iLabel1和iLabel2分别转换为对应分类名字,输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410536020.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种悬挂式七氟丙烷灭火器容器阀
- 下一篇:减压阀