[发明专利]一种基于网络迁移的新闻点击诱饵检测方法在审
申请号: | 201811476645.7 | 申请日: | 2018-12-04 |
公开(公告)号: | CN109635111A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 郑锦坤;朱启琨;李敏;梁良;丁瑜;肖子洋 | 申请(专利权)人: | 国网江西省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 施秀瑾 |
地址: | 330077 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于网络迁移的新闻点击诱饵检测方法,具体的实施步骤分解如下:步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理;步骤2:预训练词向量,通过度大量的语料进行表示学习,得到每个单词的词向量表示;步骤3:在源领域进行训练,通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果;步骤4:在目标领域进行训练,通过微调适配层,使得模型能够利用源领域的先验知识;步骤5:分类,当一条新闻到来时,经过分词预处理。本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能,表明了模型的有效性和鲁棒性,解决了人工标注的点击诱饵数据集既费时又费力的问题。 | ||
搜索关键词: | 源领域 诱饵 网络迁移 词向量 预处理 卷积神经网络 分词预处理 参数模型 目标领域 目标语言 人工标注 先验知识 鲁棒性 适配层 数据集 检测 语料 单词 句子 费力 迁移 分解 学习 分类 | ||
【主权项】:
1.一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,从最开始的新闻输入,到最终的点击诱饵与正常新闻的检测,具体的实施步骤分解如下:步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理,将完整的句子切分为一个个独立的词,将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理;步骤2:预训练词向量,模型接收的是数值化的输入,需要将单词进行向量化表示,表示连续而稠密,隐含了词语的语义信息,并且能够更好地与表现能力更强的神经网络进行结合,通过度大量的语料进行表示学习,得到每个单词的词向量表示,从而获得词的语义信息和上下文信息;步骤3:在源领域进行训练,通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果;步骤4:在目标领域进行训练,通过微调适配层,使得模型能够利用源领域的先验知识,同时通过微调的方法更好地拟合目标领域的数据,通过这种方式,训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型;步骤5:分类,当一条新闻到来时,经过分词预处理,查找对应的词向量操作,将其转换成为模型能够接受的连续的数值型数据,分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵,通过一个逻辑斯蒂回归,得到新闻标题为正常新闻或者点击诱饵的概率,认为概率大于0.5时为点击诱饵,否则为正常新闻。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司信息通信分公司;国家电网有限公司,未经国网江西省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811476645.7/,转载请声明来源钻瓜专利网。