[发明专利]基于机器学习的文本分类方法及终端设备在审

专利信息
申请号: 201811197171.2 申请日: 2018-10-15
公开(公告)号: CN109284385A 公开(公告)日: 2019-01-29
发明(设计)人: 吴壮伟 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/955
代理公司: 深圳中一专利商标事务所 44237 代理人: 官建红
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 预设 网页 网页文本 文本分类模型 文本分类 词组 相关度 基于机器 神经网络 终端设备 集合 锚文本 预设置 子类别 统一资源定位符 抓取 网络爬虫 训练集 分类 学习
【说明书】:

发明提供了一种基于机器学习的文本分类方法及终端设备,通过网络爬虫抓取多个网页;针对多个网页中的任一网页,获取网页的统一资源定位符URL和锚文本;对网页的URL和锚文本进行处理,获得第一词组集合;根据第一词组集合和预设置的第二词组集合,计算网页与预设类别的相关度;对与预设类别的相关度大于第一预设值的网页进行处理得到网页文本;通过预设训练集对预设置的深度神经网络文本分类模型进行训练,并通过深度神经网络文本分类模型对网页文本进行文本分类处理,得到网页的子类别。本发明通过与预设类别相对应的文本分类模型,对与该预设类别相关度大于第一预设值的网页文本进行分类,得到该网页文本的子类别,提高了网页文本的分类精度。

技术领域

本发明属于计算机技术领域,尤其涉及一种基于机器学习的文本分类方法及终端设备。

背景技术

随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使得人们无法快速找到有效的信息并加以利用。

通过web信息采集技术可以帮助人们迅速获取互联网上的资源,它是通过网络爬虫程序来分析网页的HTML(HyperText Mark-up Language,超文本标记语言)代码,获取网页的超级链接信息,使用广度优先搜索算法和增量存储算法,实现自动的连续分析链接和抓取文件。

对网络爬虫爬取到的文档进行分类具有诸多好处,例如可通过网络爬虫为某一特定行业提供系统收集服务,根据爬虫爬取到的页面进行归类于统计分析,及时向用户推送分类后的有效信息等。然而,现有技术没有针对网络爬虫爬取到的文档进行有效分类的方法。

发明内容

有鉴于此,本发明实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中无法对爬虫爬取到的文档进行精准分类的问题。

本发明实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:

通过网络爬虫抓取多个网页;

针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;

对所述网页的URL和锚文本进行处理,获得第一词组集合;

根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;

若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;

获取预设训练集,针对所述训练集中的任一文本,所述文本为经过人工分类的文本,所述文本标注有对应的子类别,所述子类别为预设子类别列表中的一种子类别,所述预设子类别列表中的所有子类别构成所述预设类别;

通过所述训练集对预设置的深度神经网络文本分类模型进行训练,直至达到预设的训练终止条件,通过所述深度神经网络文本分类模型对所述网页文本进行文本分类处理,得到所述网页的子类别。

本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:

通过网络爬虫抓取多个网页;

针对所述多个网页中的任一网页,获取所述网页的统一资源定位符URL和锚文本;

对所述网页的URL和锚文本进行处理,获得第一词组集合;

根据所述第一词组集合和预设置的第二词组集合,计算所述网页与预设类别的相关度,其中,所述第二词组集合中的词组用于标识所述预设类别;

若所述网页与预设类别的相关度大于第一预设值,则对所述网页进行处理得到网页文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811197171.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top