[发明专利]一种基于机器学习的文本分类方法及终端设备在审
申请号: | 201811181954.1 | 申请日: | 2018-10-11 |
公开(公告)号: | CN109471937A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴壮伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于机器学习的文本分类方法及终端设备,包括:通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;针对多个网页中的任一网页,对网页的网页内容进行处理,获得网页所对应的一个文本,文本包括网页的栏目数据、标题数据、正文数据及标签数据;获取训练集,包括多个网页所对应的多个文本;针对训练集中的任一文本,为文本设置标识,标识用于表示文本的类别;对文本进行分词处理,并对分词结果向量化,获得文本所对应的特征向量;通过训练集对文本分类模型进行训练;通过完成训练的文本分类模型,对待分类文本进行分类。结合词语在网页中的位置,对网页所对应的文本进行特征化,提高了文本分类精度。 | ||
搜索关键词: | 网页 文本 文本分类 文本分类模型 基于机器 网页内容 终端设备 训练集 标签数据 标题数据 分词处理 分词结果 分类文本 栏目数据 特征向量 网络爬虫 正文数据 特征化 向量化 网站 预设 词语 学习 分类 论坛 | ||
【主权项】:
1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;获取训练集,所述训练集包括所述多个网页所对应的多个文本;针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;通过所述训练集对文本分类模型进行训练;通过完成训练的文本分类模型,对待分类文本进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811181954.1/,转载请声明来源钻瓜专利网。