[发明专利]一种基于机器学习的文本分类方法及终端设备在审
申请号: | 201811181954.1 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109471937A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴壮伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 文本 文本分类 文本分类模型 基于机器 网页内容 终端设备 训练集 标签数据 标题数据 分词处理 分词结果 分类文本 栏目数据 特征向量 网络爬虫 正文数据 特征化 向量化 网站 预设 词语 学习 分类 论坛 | ||
本发明提供了一种基于机器学习的文本分类方法及终端设备,包括:通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;针对多个网页中的任一网页,对网页的网页内容进行处理,获得网页所对应的一个文本,文本包括网页的栏目数据、标题数据、正文数据及标签数据;获取训练集,包括多个网页所对应的多个文本;针对训练集中的任一文本,为文本设置标识,标识用于表示文本的类别;对文本进行分词处理,并对分词结果向量化,获得文本所对应的特征向量;通过训练集对文本分类模型进行训练;通过完成训练的文本分类模型,对待分类文本进行分类。结合词语在网页中的位置,对网页所对应的文本进行特征化,提高了文本分类精度。
技术领域
本发明属于计算机技术领域,尤其涉及一种基于机器学习的文本分类方法及终端设备。
背景技术
随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使人们在如何有效利用它们面临一定的挑战。
对网络文本进行分类具有诸多好处,如向用户推送用户感兴趣的某一类别的信息,进而提高用户的使用体验等等。因此,对海量电子信息进行有效的组织和分类十分重要。然而,现有的文本分类方法,文本分类效率和分类精度都较低。
发明内容
有鉴于此,本发明实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中文本分类效率低的问题。
本发明实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811181954.1/2.html,转载请声明来源钻瓜专利网。