[发明专利]基于词向量进行近似搜索快速提取广告文本主题的方法有效
申请号: | 201910852577.8 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110717329B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 李新;李征宇;邵品贤;吴小刚 | 申请(专利权)人: | 上海开域信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/242;G06F16/31;G06F16/33;G06F18/22;G06Q30/02 |
代理公司: | 宿迁市永泰睿博知识产权代理事务所(普通合伙) 32264 | 代理人: | 朱真珍 |
地址: | 200000 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于词向量进行近似搜索快速提取广告文本主题的方法,包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;本发明操作方便,采用本发明可以将GPU‑DMM生成模型中单个查询词的搜索复杂度从0(N)下降到0(log N),加速了整个广告文本主题提取过程,大大提升提取速度,整个流程可以在数小时内完成离线处理和无监督训练,能够应对互联网广告行业的大规模数据量与近实时性要求,可以做到按天更新或者按小时更新用户兴趣标签。 | ||
搜索关键词: | 基于 向量 进行 近似 搜索 快速 提取 广告 文本 主题 方法 | ||
【主权项】:
1.一种基于词向量进行近似搜索快速提取广告文本主题的方法,其特征在于:包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;/n第二步,根据语料库中的词向量,采用随机投影算法建立词向量索引;/n第三步,索引建立后,读取广告文本主题的分词结果,找到每个分词后的词的词向量,通过近似最近邻搜索ANN算法从索引中快速查找查询词的最近邻词向量,通过余弦相似度来计算两个词向量之间的相似度,获取五十个以上的相似词,作为广告文本主题模型的基础数据;/n第四步,结合GPU-DMM模型和上述第三步中获取的广告文本主题模型的基础数据生成文本主题及文本主题下的词语;/n第五步,根据用户点击过的广告文本以及第四步中生成的文本主题确定用户兴趣标签,将用户兴趣标签存入到Redis等实时Key-Value标签系统,在该用户下一次访问网站时,如果带有的标签符合某个或多个广告主的定向投放要求,则认为该用户是广告主的目标用户,对其投放广告主预先设定的广告。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海开域信息科技有限公司,未经上海开域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910852577.8/,转载请声明来源钻瓜专利网。