[发明专利]一种基于深度学习的数据分类方法以及图谱的建立方法在审

专利信息
申请号: 202111176377.9 申请日: 2021-10-09
公开(公告)号: CN113886587A 公开(公告)日: 2022-01-04
发明(设计)人: 姚洲鹏 申请(专利权)人: 杭州凡闻科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/332;G06F16/36
代理公司: 杭州裕阳联合专利代理有限公司 33289 代理人: 杨琪宇
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 数据 分类 方法 以及 图谱 建立
【说明书】:

发明提供一种基于深度学习的数据分类方法以及图谱的建立方法,其中数据分类的方法包括:提取基础文章中的核心关键词,计算核心关键词的权重值,建立第一权重对应表,提取每篇基础文章的关键词,根据第一权重对应表计算每篇文章的行业匹配度,得出第一匹配度阈值,根据第一匹配度对基础文章进行迭代;根据迭代的文章重复上述步骤,获得第二权重对应和第二匹配度阈值;利用第二匹配度阈值判断新文章是否属于目标行业。本发明利用基础文章提取关键词并将关键词分为标题关键词和正文关键词,赋予不同的调节因子,可以更有效地计算出行业匹配度,再利用匹配度更高的文章进行更精准地替换迭代,释放了存储历史数据的空间,更快速地获得最优的模型。

技术领域

本申请涉及一种基于深度学习的数据分类方法和基于前述数据分类方法的行业知识图谱的建立方法,具体涉及一种自学习的深度学习的文章数据分类方法。

背景技术

文本聚类技术可应用于行业数据分析,系统每日通过网络爬虫可收集来自各个领域的海量文章数据,利用算法有效的将这些文章进行归纳分类,可以帮助用户快速了解当前的行业信息,并高效的进行进一步的分析处理。

目前对于特定行业的数据汇聚及数据模型的建立,一般采用聚类算法进行数据的聚类,然后对聚类的数据再进行人工统计分类。但聚类算法需要保存全部历史文档信息,这会造成存储负担;并且,各行各业每日都存在大量的新增文本,而当文章越来越多时,历史文档信息就会越多,导致聚类算法的分析和运算效率降低,因此聚类算法只适用数据量小的场景,当数据量大时效率就会变低,同时也增加了人工分类成本。

发明内容

为了解决聚类算法聚类同行业文章时效率低下的问题,本申请提供一种文章分类方法,利用关键词权重以及文章和模型的匹配度进行分类。

一种基于深度学习的数据分类方法,包括以下步骤:

获取若干基础文章,从若干所述基础文章中提取若干个核心关键词,计算所述核心关键词的权重值,根据核心关键词以及权重值建立第一权重对应表;

提取每篇基础文章中的标题关键词和正文关键词,根据第一权重对应表查询标题关键词的权重值与正文关键词的权重值,根据所述标题关键词的权重值与正文关键词的权重值计算每篇基础文章的行业匹配度;

根据所述每篇基础文章的行业匹配度获得第一匹配度阈值;

提取待匹配文章的标题关键词和正文关键词,计算待匹配文章的行业匹配度,当所述待匹配文章的行业匹配度大于所述第一匹配度阈值时,所述待匹配文章替换所述基础文章中行业匹配度最低的一篇基础文章,当所有基础文章的行业匹配度均大于所述第一匹配度阈值时,停止迭代,获得文章分类模型;

利用文章分类模型中的文章重复上述步骤,获得第二权重对应表,并根据第二权重对应表获得第二匹配度阈值;

利用所述文章分类模型计算待计算文章的行业匹配度,当待计算文章的行业匹配度大于所述第二匹配度阈值时,则判定所述待计算文章属于目标行业。

进一步地,计算所述核心关键词的权重值的计算方法具体为:

wordw[i]指第i个关键词在模型中的权重,fq[i]指第i个关键词在本篇基础文章中出现的频次,fqm[i]指第i个关键词在所有基础文章中出现的频次,k指基础文章的数量。

进一步地,计算每篇基础文章的行业匹配度的计算方法具体为:

Titlew为标题调节因子,contentw正文调节因子,title[i]指在标题中出现的第i个关键词在所述第一权重对应表中对应的权重值,content[i]指在正文中出现的第i个关键词在所述第一权重对应表中对应的权重值。

进一步地,从若干所述基础文章中提取若干个核心关键词所用的算法为TextRank算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州凡闻科技有限公司,未经杭州凡闻科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111176377.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top