[发明专利]基于LDA和word2vec算法的新闻文本分类方法有效
申请号: | 201710828232.X | 申请日: | 2017-09-14 |
公开(公告)号: | CN107609121B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 赵阔;王峰;谢珍真;孙小雅 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京君泊知识产权代理有限公司 11496 | 代理人: | 王程远;胡玉章 |
地址: | 510632 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于LDA和word2vec算法的新闻文本分类方法,包括:通过word2vec获得语料库词向量;将训练样本集中的文本分词、去除停用词;通过LDA模型获得训练样本集的类别核心词;构造训练样本集的类别中心向量;对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量;对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,对待分类文本进行分类;用KNN算法对待分类文本进行二次分类。本发明的有益效果:将待分类文本的特征向量与类中心向量进行相似度计算进行初次分类,大大降低了计算量,当初次分类不足以明确划分类别时,用KNN算法进行二次分类,在新样本集中等量抽取类别样本,消除样本分布不均对分类准确率造成的影响。 | ||
搜索关键词: | 基于 lda word2vec 算法 新闻 文本 分类 方法 | ||
【主权项】:
一种基于LDA和word2vec算法的新闻文本分类方法,其特征在于,包括:步骤1,通过word2vec工具获得语料库的词向量:将大规模的语料库进行分词处理,将分词后的文本输入word2vec工具,训练得到语料库中各个词的词向量;步骤2,对训练样本集进行文本预处理:将训练样本集中的文本进行分词、去除停用词;步骤3,通过LDA主题模型,获得训练样本集的类别核心词:在训练样本集的各个类别上分别训练LDA主题模型,训练样本集在LDA主题模型下训练后得到各个类别的文本‑主题和主题‑词的概率分布,根据LDA主题模型输出结果,将各个类别中最大主题下概率值大于阈值α的词作为该类别的核心词;步骤4,通过类别核心词的词向量ai,构造训练样本集的类别中心向量ci;步骤5,对待分类文本进行预处理后,提取文本特征词,获得待分类文本的文本向量dj;步骤6,对待分类文本的文本向量和训练样本集的类别中心向量进行相似度计算,并对相似度值降序排序,根据排序对待分类文本进行初次分类,当降序排序中前两个似度值之间的差值小于阈值ε时,进行步骤7;步骤7,采用KNN算法对待分类文本进行二次分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710828232.X/,转载请声明来源钻瓜专利网。