[发明专利]一种识别文本类广告中金融广告的方法在审
申请号: | 202010321249.8 | 申请日: | 2020-04-22 |
公开(公告)号: | CN111538836A | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 江颖硕;施力;张兆心;唐积强;吴震;卢卫;杨菁林;董群;郭长勇;王伟 | 申请(专利权)人: | 哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/284;G06K9/62 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 于振强 |
地址: | 264209*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 文本 广告 金融 方法 | ||
1.一种识别文本类广告中金融广告的方法,其特征是,包括以下步骤:
(1)从数据库中获取爬取到的广告文本数据;
(2)对步骤(1)的文本数据进行预处理,进行分词以及去除无用信息;
(3)将步骤(2)预处理后的文本通过不同的方式表示为计算机可以处理的方式,即文本表示;所述文本表示方法包括:
1)基于词频的表示方法;
2)布尔编码的表示方法;
3)基于TFIDF的表示方法;
4)基于Word2Vec模型的表示方法;
5)基于ELMo模型的表示方法;
(4)针对步骤(3)的不同文本表示方式选择合适的分类算法,然后将文本表示的语义信息提炼成类别信息;
(5)将步骤(4)中不同文本表示方式表示的分类模型进行整合,获得最终的金融广告识别模型。
2.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述Word2Vec模型将词用神经网络模型训练成向量,通过向量表示词,通过向量之间的距离表示词与词之间的关系。
3.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述ELMo模型能够综合考虑单词特征,句法特征和语义特征。
4.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(1)中的广告文本数据来自于搜索引擎、百度贴吧、金融门户、新闻门户站点。
5.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(2)中对数据预处理包括以下步骤:
i.分词:将无间隔的文本数据转化为连续的词组;
ii.去停用词:去掉不具有语义信息。
6.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(4)给不同文本表示方式选择合适的分类算法,选择的分类算法如下:
a.针对词频表示,采用多项式朴素贝叶斯模型;
b.针对布尔表示,采用伯努利朴素贝叶斯分类模型;
c.针对TFIDF构建连续值进行文本表示,采用逻辑回归和支持向量机模型;
d.针对词向量表示,采用简单的卷积神经网络与循环神经网络。
7.根据权利要求1所述识别文本类广告中金融广告的方法,其特征在于,所述步骤(5)中将不同文本表示方式进一步表示的分类模型进行整合,采用XGBoost模型进行集成,所述XGBoost模型基模型采用传统的CART树,对所述XGBoost模型进行多轮训练,获得最终的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心,未经哈尔滨工业大学(威海);国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010321249.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网络节点配置方法和装置
- 下一篇:一种基于SaaS模式下的专利交易系统