[发明专利]一种基于语义的网络文档智能检索架构在审

专利信息
申请号: 201710504510.6 申请日: 2017-06-29
公开(公告)号: CN107330044A 公开(公告)日: 2017-11-07
发明(设计)人: 张军;陈晓峰;戴建荣 申请(专利权)人: 上海德衡数据科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 201201 上海市浦东*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语义 网络 文档 智能 检索 架构
【说明书】:

技术领域

发明涉及一种基于语义的网络文档智能检索架构

背景技术

目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。

网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的HTTP协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,HTTP给每种要通过网络传输的对象都打上了名为MIME类型的数据格式标签。统一资源定位符(URL)是资源标识符最常见的形式。URL描述了一台特定服务器上某资源的特定位置。元素文件(METAFILE)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。

URL是必要的,因为它是初始数据集的来源,这个过程中仍然会涉及到网络爬虫。然而,仅有这个初始数据集是不够的。可以将它们视作海量的原始数据,需要进一步地分类和提炼。这种提炼在资源描述框架(RDF)的帮助下完成。同一个词可以有不同的含义甚至不同的用法。这种歧义问题可以用本体(ONTOLOGY)-即含义的汇集来解决。

但基于URL、RDF、ONTOLOGY的语义搜索与主流网络兼容性不够。目前,最简单的方式是在网页中直接嵌入描述。要想让网页的结构更清晰,可使用HTML5中新的语义元素。这些元素可以为它们标注的内容赋予额外的含义。网络爬虫已经在检查一些HTML5的语义元素了,这样可以收集到它们索引的页面的更多信息。

网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。

假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵,以便于进行语义搜索。

本发明提供了一种基于语义的网络文档智能检索架构,通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;低秩矩阵检索在所有网络文档中共同使用的常见单词;稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;利用关键词对网络文档进行语义检索。

发明内容

本发明的目的在于提供一种基于语义的网络文档智能检索架构。本发明包括以下特征:

发明技术方案

1.一种基于语义的网络文档智能检索架构,其具体步骤如下:

1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;

2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;

3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;

4)低秩矩阵检索在所有网络文档中共同使用的常见单词;

5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;

6)利用关键词对网络文档进行语义检索。

附图说明

附图1是基于语义的网络文档智能检索架构图。

具体实施方式

这种基于语义的网络文档智能检索架构,包括如下步骤特征:

1)通过METAFILE的关键词对URL进行索引,并与相关关键词建立映射;

2)将词与网络文档的相关性进行编码,作为网络文档-词矩阵的元素;

3)再将网络文档-词矩阵分解为一个低秩矩阵与一个稀疏矩阵之和;

4)低秩矩阵检索在所有网络文档中共同使用的常见单词;

5)稀疏矩阵检索每个网络文档与其他网络文档相区别的少数几个关键词;

6)利用关键词对网络文档进行语义检索。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德衡数据科技有限公司,未经上海德衡数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710504510.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top