[发明专利]一种微信公众号公号主题分类方法及装置在审
申请号: | 202010114547.X | 申请日: | 2020-02-25 |
公开(公告)号: | CN111353019A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 田东坡 | 申请(专利权)人: | 上海昌投网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/258;G06K9/62 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 何东明 |
地址: | 200135 上海市浦东新区自由贸易试验区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公众 号公号 主题 分类 方法 装置 | ||
本发明适用于微信公众号广告投放技术领域,提供了一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出,通过判断微信公众号主题类型是否符合当前业务下的投放标准,为广告投放提供数据上的参考。
技术领域
本发明属于微信公众号广告投放领域,尤其涉及一种微信公众号公号主题分类方法及装置。
背景技术
微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。
但是企业在进行广告投放时需要考虑公众号主题类型是否符合业务场景下的投放标准,进而影响投资回报率,投资回报率是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报,因此需要一种能够对微信公众号主题类型进行预测的技术。
发明内容
本发明提供一种微信公众号公号主题分类方法及装置,旨在解决不能够对微信公众号的主题类型进行预测的问题。
本发明是这样实现的,一种微信公众号公号主题分类方法,包括以下步骤:
S1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
S2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;
S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;
S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。
优选的,所述清洗文章数据具体为:对文章数据进行分词处理。
优选的,所述训练Word2Vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。
优选的,所述训练TextCNN深度学习模型以获得分类模型具体为:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。
本发明还提供一种微信公众号公号主题分类装置,包括:
数据采集模块,用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
数据处理模块,用于清洗文章数据,训练Word2Vec模型,获取embedding;
分类模型训练模块,用于训练TextCNN深度学习模型以获得分类模型。
优选的,所述数据处理模块还用于:对文章数据进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海昌投网络科技有限公司,未经上海昌投网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010114547.X/2.html,转载请声明来源钻瓜专利网。