[发明专利]一种卷积神经网络的新闻用户兴趣挖掘方法在审
申请号: | 201910435240.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110209815A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 刘春阳;王鹏;张旭;张翔宇;陈志鹏;李磊;王利军 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06N3/04 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种卷积神经网络的新闻用户兴趣挖掘方法:步骤一:定义兴趣标签;步骤二:训练数据构造;步骤三、词向量的语料收集与词向量训练;步骤四、构造word到token和token到word的映射,得到映射表;步骤五、在映射表基础上,对原始文本进行转换;步骤六:加载预训练好的词向量文件,构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:将带有兴趣标签的微博文本数据接入到分类模型训练。本发明实现了一种自动构造新闻用户兴趣标签的方法,通过构建一个结合连续的语义特征CNN卷积神经网络作为兴趣文本分类器,对用户的新闻评论进行兴趣分类,得到用户的兴趣。 | ||
搜索关键词: | 词向量 卷积神经网络 用户兴趣 标签 映射表 矩阵 分类模型训练 文本分类器 文本数据 新闻评论 训练数据 语料收集 语义特征 原始文本 自动构造 挖掘 映射 构建 加载 微博 维度 词汇 转换 分类 | ||
【主权项】:
1.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:该方法包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下:步骤一:定义兴趣标签采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐;步骤二:训练数据构造步骤三、词向量的语料收集与词向量训练词向量的语料收集即词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据;词向量训练过程为:随机初始化向量,遍历一次词向量训练语料库,调用gensim接口进行词向量训练,最终获得词向量结果;步骤四、构造word到token的映射和token到word的映射,得到映射表,以备后续模型调用词向量使用;步骤五、在映射表的基础上,对原始文本进行转换,即将文本转换为机器可识别的编码;步骤六:加载步骤三预训练好的词向量文件,基于训练好的词向量构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:完成上述各种预处理后,将带有微博兴趣标签的微博文本数据接入到分类模型进行训练,所述的分类模型采用TextCNN模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司,未经国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910435240.7/,转载请声明来源钻瓜专利网。