[发明专利]基于词向量进行近似搜索快速提取广告文本主题的方法有效
申请号: | 201910852577.8 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110717329B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 李新;李征宇;邵品贤;吴小刚 | 申请(专利权)人: | 上海开域信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/242;G06F16/31;G06F16/33;G06F18/22;G06Q30/02 |
代理公司: | 宿迁市永泰睿博知识产权代理事务所(普通合伙) 32264 | 代理人: | 朱真珍 |
地址: | 200000 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 向量 进行 近似 搜索 快速 提取 广告 文本 主题 方法 | ||
本发明公开了一种基于词向量进行近似搜索快速提取广告文本主题的方法,包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;本发明操作方便,采用本发明可以将GPU‑DMM生成模型中单个查询词的搜索复杂度从0(N)下降到0(log N),加速了整个广告文本主题提取过程,大大提升提取速度,整个流程可以在数小时内完成离线处理和无监督训练,能够应对互联网广告行业的大规模数据量与近实时性要求,可以做到按天更新或者按小时更新用户兴趣标签。
技术领域
本发明涉及一种提取广告文本主题的方法,具体涉及一种基于词向量进行近似搜索快速提取广告文本主题的方法。
背景技术
在互联网广告推荐业务中,首先根据用户点击或者浏览的广告文本提取广告文本主题进而确定用户的兴趣标签,如果用户兴趣标签符合广告主的兴趣定向投放要求则将其投放广告,目前提出广告文本主题常见的有LDA和GPU-DMM。
LDA是一种文档主题生成模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布,在LDA估计文档主题过程中,联合概率分布可以通过以下公式计算:
其中:指的是文档d采用主题k的次数,这个数越大代表该文档越有可能使用主题k;
指的是文档-主题分布的迪利克雷超参数,起到一个平滑的作用;
指的文档d中的词w在主题k中的出现次数;
指的是主题-词语项的迪利克雷超参数,同样能够起到平滑的作用;
代表的是文档d在多大程度上有可能是主题k;
代表的是第k个主题的词概率分布;
从上述公式可以看出,LDA提取主题的过程依赖于相同主题词同时出现提供的信息,但在广告中的文本往往为单个句子,在相同主题词的共现频率上存在极大的稀疏性,而传统的文档主题生成模型难以生成有区分能力的文档主题分布,生成的文档主题难以有语义上的一致性,这成为了准确提取广告标题的瓶颈。
GPU-DMM基于的假设是每个文档由单个主题生成,与LDA相比更加合理,基于GPU-DMM生成文档主题以及每个主题下的词语,为了更好地利用相同主题词共同出现提供的信息,通常在DMM的基础上结合GPU采样过程,对于每次DMM过程中生成的词,会提升该词以及在大规模语料库中与该词相似的词被选中的概率,加强了采样到的主题和相似词之间的语义关联程度,提升了广告标题中几乎不可能同时存在但是语义相近的词出现在同一主题下的概率,使得最终的文档主题分布更准确。在查找相似词的过程中,需要暴力搜索语料库中的词向量找到相似词,现有的大规模开源语料库中一般包含至少百万级别的词语和对应的词向量,而在互联网信息流广告背景下,根据业务规模用户点击的广告文本数量通常在百万级别,出现的词汇量在十万级别,因此在根据GPU-DMM模型提取主题时,如果在语料库中暴力搜索每个词语的相似词,计算复杂度在千亿量级,难以应对互联网行业需要快速实时计算用户兴趣的要求。
发明内容
本发明针对背景技术中的不足,设计了一种基于词向量进行近似搜索快速提取广告文本主题的方法,目的在于:解决现有技术中提取广告文本主题速度慢的问题。
本发明的目的是通过如下途径实现的:
一种基于词向量进行近似搜索快速提取广告文本主题的方法,其特征在于:包括如下步骤:第一步,利用结巴分词工具,利用已有的停用词库,到广告标题中查找与停用词库相同的词将其去掉即去掉广告标题中的停用词,提取语料库中的中文词将其作为词典,利用词典,对广告文本主题进行分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海开域信息科技有限公司,未经上海开域信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910852577.8/2.html,转载请声明来源钻瓜专利网。