[发明专利]网络资源的语义编码方法和装置在审
申请号: | 201510917119.X | 申请日: | 2015-12-10 |
公开(公告)号: | CN105488207A | 公开(公告)日: | 2016-04-13 |
发明(设计)人: | 邹敏;齐志兵;尹玉宗;姚键;潘柏宇;王冀 | 申请(专利权)人: | 合一网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络资源 语义 编码 方法 装置 | ||
技术领域
本发明涉及互联网领域,尤其涉及一种网络资源的语义编码方法和装 置。
背景技术
在网页上采用检索词进行搜索时,从海量的网页词中检索出与检索词相 关的词不是一件容易的事情,可能出现检索到的网页词与所期望的检索词相 关性不高等问题。
目前,可以通过准确的词向量快速地找到检索词与网页词之间的相关 性。Word2vec是可以将单个的词转换成向量形式的工具。具体而言,Word2vec 通过挖掘海量网页中词与词之间的位置关系,包括位置邻接、位置相近、共 同出现等,来推测词与词之间的语义关系,并将这种语义关系用向量表达。
由于Word2vec等现有技术以单个的词为基本的处理单位,但句子或者短 语的表达则是通过对词的语义表达进行组合得到,这样获得的网页词的准确 性难以保证。而且,现有技术的词向量定义方法需要海量的网页文本数据作 为训练语料库,得到的结果也是普通意义上的语义表述,这种语义表述与视 频等垂直领域所需要的语义描述有出入。现有方法并不适用于处理查询点击 等用户行为数据。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,如何在搜索引擎等场景下,如 何准确地对网页、检索词等网络资源进行语义编码。
解决方案
为了解决上述技术问题,本发明提供一种网络资源的语义编码方法,所 述网络资源包括能够通过互联网访问的多媒体资源和用户访问所述多媒体 资源所产生的用户行为数据,所述用户行为数据包括输入数据和点击数据, 所述方法包括:
根据所述多媒体资源、所述输入数据和所述点击数据,确定待处理区域 内每两个所述网络资源的关联程度,其中,每两个所述网络资源的关联程度 包括以下至少一种:所述多媒体资源与所述输入数据的关联程度、两个所述 多媒体资源之间的关联程度、两个所述输入数据之间的关联程度;
根据每两个所述网络资源的关联程度,对所述多媒体资源和/或所述输入 数据进行语义编码,所述语义编码的结果是用向量来表示所述网络资源。
对于上述方法,在一种可能的实现方式中,根据每两个所述网络资源的 关联程度,对所述多媒体资源和/或所述输入数据进行语义编码,包括:
建立计算每个网络资源语义编码的数学模型,在所述数学模型中,任意 两个具有关联关系的网络资源之间建立一个关联关系方程,每个关联关系方 程用于根据网络资源的关联程度的目标值计算网络资源的语义向量,所有的 关联关系方程构成一组大型方程组;
根据所述大型方程组来建立目标函数,对所述目标函数采用梯度下降 法,来求解所述大型方程组的最优解,得到各所述网络资源对应的语义向量, 所述目标函数用于衡量所述大型方程组的解的最优性。
对于上述方法,在一种可能的实现方式中,建立计算每个网络资源语义 编码的数学模型,在所述数学模型中,任意两个具有关联关系的网络资源之 间建立一个关联关系方程,每个关联关系方程用于根据网络资源的关联程度 的目标值计算网络资源的语义向量,所有的关联关系方程构成一组大型方程 组,包括:
对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有 关联关系的网络资源的关联关系方程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合一网络技术(北京)有限公司,未经合一网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510917119.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于搜索的加载瀑布流的方法和装置
- 下一篇:一种塑料收卷机