[发明专利]一种基于机器学习的文本分类方法及终端设备在审

申请号：	201811181954.1	申请日：	2018-10-11
公开（公告）号：	CN109471937A	公开（公告）日：	2019-03-15
发明（设计）人：	吴壮伟	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	深圳中一专利商标事务所 44237	代理人：	官建红
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于机器学习的文本分类方法及终端设备，包括：通过网络爬虫，爬取预设论坛网站的多个网页的网页内容；针对多个网页中的任一网页，对网页的网页内容进行处理，获得网页所对应的一个文本，文本包括网页的栏目数据、标题数据、正文数据及标签数据；获取训练集，包括多个网页所对应的多个文本；针对训练集中的任一文本，为文本设置标识，标识用于表示文本的类别；对文本进行分词处理，并对分词结果向量化，获得文本所对应的特征向量；通过训练集对文本分类模型进行训练；通过完成训练的文本分类模型，对待分类文本进行分类。结合词语在网页中的位置，对网页所对应的文本进行特征化，提高了文本分类精度。
搜索关键词：	网页文本文本分类文本分类模型基于机器网页内容终端设备训练集标签数据标题数据分词处理分词结果分类文本栏目数据特征向量网络爬虫正文数据特征化向量化网站预设词语学习分类论坛
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器学习的文本分类方法，其特征在于，该方法包括：通过网络爬虫，爬取预设论坛网站的多个网页的网页内容；针对所述多个网页中的任一网页，对所述网页的网页内容进行处理，获得所述网页所对应的一个文本，所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据；获取训练集，所述训练集包括所述多个网页所对应的多个文本；针对所述训练集中的任一文本，为所述文本设置标识，所述标识用于表示所述文本的类别；对所述文本进行分词处理，并对分词结果向量化，获得所述文本所对应的特征向量；通过所述训练集对文本分类模型进行训练；通过完成训练的文本分类模型，对待分类文本进行分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811181954.1/，转载请声明来源钻瓜专利网。

上一篇：一种用于对设备维护信息进行特征分类的方法和系统
下一篇：一种文本分类方法及终端

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的文本分类方法及终端设备在审

专利文献下载