[发明专利]一种识别文本类广告中金融广告的方法在审

专利信息
申请号: 202010321249.8 申请日: 2020-04-22
公开(公告)号: CN111538836A 公开(公告)日: 2020-08-14
发明(设计)人: 江颖硕;施力;张兆心;唐积强;吴震;卢卫;杨菁林;董群;郭长勇;王伟 申请(专利权)人: 哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F40/284;G06K9/62
代理公司: 北京怡丰知识产权代理有限公司 11293 代理人: 于振强
地址: 264209*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 文本 广告 金融 方法
【说明书】:

发明涉及一种识别文本类广告中金融广告的方法,其解决了现有广告分析模型无法有效识别金融广告的技术问题,其包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。本发明可广泛应于在文本类广告中识别金融广告的场合。

技术领域

本发明涉及广告识别领域,特别是涉及一种识别文本类广告中金融广告的方法。

背景技术

随着互联网的高速发展,互联网金融行业也随之呈现出一片繁荣的景象。但是在繁荣的同时,其也存在大量的安全问题,如以“裸贷”、“校园贷”为代表的网络诈骗、非法集资等违法犯罪行为,而这些行为通常存在于金融广告中。

现如今,各个网站中都存在大量的文本类广告,但这些文本类广告不仅仅只是金融广告,也可能是普通的广告,通过爬虫技术获取的文本类广告包含所有广告,而我们进行广告分析时只需要分析金融广告,但是我们用来分析的模型无法识别哪些是金融广告,哪些不是,所以普通广告的存在会影响广告分析的效率以及广告分析的结果。

发明内容

本发明为了解决现有广告分析模型无法有效识别金融广告的技术问题,提供一种对获得的广告数据进行金融类广告判断,为后续进行金融广告的分析提供可靠数据支持的识别文本类广告中金融广告的方法。

本发明提供一种识别文本类广告中金融广告的方法,包括以下步骤:(1)从数据库中获取爬取到的广告文本数据;(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;文本表示方法包括:1)基于词频的表示方法;2)布尔编码的表示方法;3)基于TFIDF的表示方法;4)基于Word2Vec模型的表示方法;5)基于ELMo模型的表示方法;(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。

优选地,Word2Vec模型将词用神经网络模型训练成向量,通过向量表示词,通过向量之间的距离表示词与词之间的关系。

优选地,ELMo模型能够综合考虑单词特征,句法特征和语义特征。

优选地,步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。

优选地,步骤(2)中对数据预处理包括以下步骤:

i.分词:将无间隔的文本数据转化为连续的词组;

ii.去停用词:去掉不具有语义信息。

优选地,步骤(4)给不同文本表示方式选择合适的分类算法,选择的分类算法如下:

a.针对词频表示,采用多项式朴素贝叶斯模型;

b.针对布尔表示,采用伯努利朴素贝叶斯分类模型;

c.针对TFIDF构建连续值进行文本表示,采用逻辑回归和支持向量机模型;

d.针对词向量表示,采用简单的卷积神经网络与循环神经网络。

优选地,步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合,采用XGBoost模型进行集成,所述XGBoost模型基模型采用传统的CART树,对所述XGBoost模型进行多轮训练,获得最终的结果。

本发明的有益效果是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心,未经哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010321249.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top