[发明专利]一种基于网络迁移的新闻点击诱饵检测方法在审

申请号：	201811476645.7	申请日：	2018-12-04
公开（公告）号：	CN109635111A	公开（公告）日：	2019-04-16
发明（设计）人：	郑锦坤;朱启琨;李敏;梁良;丁瑜;肖子洋	申请（专利权）人：	国网江西省电力有限公司信息通信分公司;国家电网有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;G06N3/04;G06N3/08
代理公司：	南昌新天下专利商标代理有限公司 36115	代理人：	施秀瑾
地址：	330077 ***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于网络迁移的新闻点击诱饵检测方法，具体的实施步骤分解如下：步骤1：当一个句子或者一条新闻到来时，需要对其进行预处理；步骤2：预训练词向量，通过度大量的语料进行表示学习，得到每个单词的词向量表示；步骤3：在源领域进行训练，通过训练卷积神经网络和适配层的参数模型，使得模型在源领域取得最优效果；步骤4：在目标领域进行训练，通过微调适配层，使得模型能够利用源领域的先验知识；步骤5：分类，当一条新闻到来时，经过分词预处理。本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能，表明了模型的有效性和鲁棒性，解决了人工标注的点击诱饵数据集既费时又费力的问题。
搜索关键词：	源领域诱饵网络迁移词向量预处理卷积神经网络分词预处理参数模型目标领域目标语言人工标注先验知识鲁棒性适配层数据集检测语料单词句子费力迁移分解学习分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于网络迁移的新闻点击诱饵检测方法，其特征在于，从最开始的新闻输入，到最终的点击诱饵与正常新闻的检测，具体的实施步骤分解如下：步骤1：当一个句子或者一条新闻到来时，需要对其进行预处理，将完整的句子切分为一个个独立的词，将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理；步骤2：预训练词向量，模型接收的是数值化的输入，需要将单词进行向量化表示，表示连续而稠密，隐含了词语的语义信息，并且能够更好地与表现能力更强的神经网络进行结合，通过度大量的语料进行表示学习，得到每个单词的词向量表示，从而获得词的语义信息和上下文信息；步骤3：在源领域进行训练，通过训练卷积神经网络和适配层的参数模型，使得模型在源领域取得最优效果；步骤4：在目标领域进行训练，通过微调适配层，使得模型能够利用源领域的先验知识，同时通过微调的方法更好地拟合目标领域的数据，通过这种方式，训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型；步骤5：分类，当一条新闻到来时，经过分词预处理，查找对应的词向量操作，将其转换成为模型能够接受的连续的数值型数据，分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵，通过一个逻辑斯蒂回归，得到新闻标题为正常新闻或者点击诱饵的概率，认为概率大于0.5时为点击诱饵，否则为正常新闻。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网江西省电力有限公司信息通信分公司;国家电网有限公司，未经国网江西省电力有限公司信息通信分公司;国家电网有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811476645.7/，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、设备以及计算机可读存储介质
下一篇：异常透析数据筛选方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网络迁移的新闻点击诱饵检测方法在审

专利文献下载