[发明专利]一种识别文本类广告中金融广告的方法在审

专利信息
申请号: 202010321249.8 申请日: 2020-04-22
公开(公告)号: CN111538836A 公开(公告)日: 2020-08-14
发明(设计)人: 江颖硕;施力;张兆心;唐积强;吴震;卢卫;杨菁林;董群;郭长勇;王伟 申请(专利权)人: 哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心
主分类号: G06F16/35 分类号: G06F16/35;G06F16/951;G06F40/284;G06K9/62
代理公司: 北京怡丰知识产权代理有限公司 11293 代理人: 于振强
地址: 264209*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 文本 广告 金融 方法
【权利要求书】:

1.一种识别文本类广告中金融广告的方法,其特征是,包括以下步骤:

(1)从数据库中获取爬取到的广告文本数据;

(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;

(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;所述文本表示方法包括:

1)基于词频的表示方法;

2)布尔编码的表示方法;

3)基于TFIDF的表示方法;

4)基于Word2Vec模型的表示方法;

5)基于ELMo模型的表示方法;

(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;

(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。

2.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述Word2Vec模型将词用神经网络模型训练成向量,通过向量表示词,通过向量之间的距离表示词与词之间的关系。

3.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述ELMo模型能够综合考虑单词特征,句法特征和语义特征。

4.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。

5.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(2)中对数据预处理包括以下步骤:

i.分词:将无间隔的文本数据转化为连续的词组;

ii.去停用词:去掉不具有语义信息。

6.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(4)给不同文本表示方式选择合适的分类算法,选择的分类算法如下:

a.针对词频表示,采用多项式朴素贝叶斯模型;

b.针对布尔表示,采用伯努利朴素贝叶斯分类模型;

c.针对TFIDF构建连续值进行文本表示,采用逻辑回归和支持向量机模型;

d.针对词向量表示,采用简单的卷积神经网络与循环神经网络。

7.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合,采用XGBoost模型进行集成,所述XGBoost模型基模型采用传统的CART树,对所述XGBoost模型进行多轮训练,获得最终的结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心,未经哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010321249.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top