[发明专利]一种基于机器学习的文本分类方法及终端设备在审
申请号: | 201811181954.1 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109471937A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴壮伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 文本 文本分类 文本分类模型 基于机器 网页内容 终端设备 训练集 标签数据 标题数据 分词处理 分词结果 分类文本 栏目数据 特征向量 网络爬虫 正文数据 特征化 向量化 网站 预设 词语 学习 分类 论坛 | ||
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
2.根据权利要求1所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
通过独热编码获得所述栏目数据的分词结果所对应的第一向量和所述标签数据的分词结果所对应的第二向量;
通过对所述标题数据的分词结果进行词性分析,得到标题数据所对应的关键词,通过词向量模型获得每个关键词所对应的词向量,将所述标题数据所对应的所有关键词的词向量进行平均处理,得到第三向量;
通过TF-IDF矩阵对所述正文数据的分词结果进行关键词提取,得到正文数据所对应的关键词,通过词向量模型获得每个关键词的词向量,将所述正文数据所对应的所有关键词的词向量进行平均处理,得到第四向量;
根据所述第一向量、所述第二向量、所述第三向量和所述第四向量,获得所述文本所对应的特征向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
对所述文本的分词结果进行关键词提取,获得所述文本的关键词;
统计所述文本的关键词在所述网页的栏目、标题、正文及标签的位置分布;
针对所述文本的关键词中的任一关键词,根据所述关键词在所述网页的栏目、标题、正文及标签的位置分布,为所述关键词设置权值;
通过词向量模型获得每个关键词的词向量;
针对所述文本的关键词中的任一关键词,将所述关键词的词向量与所述关键词的权值相乘,获得更新后的词向量;
对所述文本的所有关键词的更新后的词向量进行平均处理,获得所述文本所对应的特征向量。
4.根据权利要求3所述的文本分类方法,其特征在于,所述为所述关键词设置权值包括:
分别为所述网页的栏目位置设置第一值,为所述网页的标题位置设置第二值,为所述网页的正文位置设置第三值,为所述网页的标签位置设置第四值;
根据所述关键词出现在所述网页的位置,将所述关键词所出现的位置所对应的值求和,得到所述关键词的权值。
5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述文本分类模型为深度神经网络模型,所述深度神经网络模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述文本的类型的概率,所述输出层的激活函数为logistics函数。
6.根据权利要求5所述的文本分类方法,其特征在于,该方法还包括:
建立多个深度神经网络模型,针对所述多个深度神经网络模型中的任意两个深度神经网络模型,所述两个深度神经网络模型的学习率、训练次数、批尺寸和终止误差各不相同;
通过所述训练集分别对所述多个深度神经网络模型进行训练;
获取预设测试集;
通过所述预设测试集分别对完成训练的所述多个深度神经网络模型进行测试;
根据测试结果选取分类精确度最高的一个深度神经网络模型对所述待分类文本进行分类。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811181954.1/1.html,转载请声明来源钻瓜专利网。