[发明专利]一种基于fastText算法的新闻文本自动分类系统在审

申请号：	201910011489.5	申请日：	2019-01-07
公开（公告）号：	CN109766410A	公开（公告）日：	2019-05-17
发明（设计）人：	程徐;韩芳;孔维健	申请（专利权）人：	东华大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35
代理公司：	上海泰能知识产权代理事务所 31233	代理人：	宋缨;钱文斌
地址：	201620 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新闻文本算法自动分类系统数字特征词表多分类模型分类器模块预处理模块清洗操作提取模块文本分类文本数据文本特征中文分词爬虫停用词分词构建归类停用去除筛选分类预测转化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于fastText算法的新闻文本自动分类系统，其特征在于，包括：新闻文本预处理模块，用于对通过爬虫爬取到的新闻文本进行筛选和清洗操作；中文分词及去停用词模块：用于对文本数据进行分词操作并通过停用词表去除对文本分类无意义的词；数字特征提取模块：用于将文本特征转化成数字特征；fastText分类器模块：用于通过fastText算法进行多分类模型的构建，将每段新闻文本预测分类为对应的类别。

2.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述新闻文本预处理模块通过正则表达式来对html标签进行匹配来抽取实现新闻文本的筛选和清洗。

3.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述中文分词及去停用词模块采用jieba分词器对新闻文本进行分词，对分完词之后的文本数据再通过内置的哈工大停用词表进行去停用词处理。

4.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述数字特征提取模块采用词向量模型word2vec对每个词构建300维的高维向量，并通过one-hot方式进行编码将类别转化成数字特征，其中，词向量模型word2vec的训练文本数据来源于中文维基百科。

5.根据权利要求1所述的基于fastText算法的新闻文本自动分类系统，其特征在于，所述fastText分类器模块通过载入预训练好的fastText模型进行多分类模型的构建，其中，所述fastText模型的输入是一个词的序列，输出是这个词序列属于不同类别的概率；所述fastText模型将一系列单词作为输入并产生一个预定义类的概率分布；使用一个softmax方程来计算概率，当数据量巨大时，fastText使用基于霍夫曼编码树的分层softmax方法进行计算。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东华大学，未经东华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910011489.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于fastText算法的新闻文本自动分类系统在审

专利文献下载