[发明专利]一种语义搜索方法及系统在审

专利信息
申请号: 201410537867.0 申请日: 2014-10-13
公开(公告)号: CN104281693A 公开(公告)日: 2015-01-14
发明(设计)人: 贾岩 申请(专利权)人: 安徽华贞信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 合肥市长远专利代理事务所(普通合伙) 34119 代理人: 程笃庆;黄乐瑜
地址: 230000 安徽省合肥市高*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 搜索 方法 系统
【说明书】:

技术领域

发明涉及数据网络技术领域,尤其涉及一种语义搜索方法及系统。

背景技术

目前互联网上信息转载率很高,再加上百度、google等搜索引擎为了搜索的查全率,导致通用搜索的搜索结果重复度非常高,不利于企业快速发现有价值的内容。

发明内容

为了解决背景技术中存在的技术问题,本发明提出了一种语义搜索方法及系统,通过网络探针技术,自动发现内容相似度高的网站;通过提取网页正文,对每段文本编码,可准确判断一篇文章重复度。

本发明提出的一种语义搜索方法,包括以下步骤:

建立语义本体库;

根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;

根据语义本体库进行行业相关数据探测和抓取。

优选地,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。

优选地,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。

优选地,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。

优选地,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。

本发明提出的一种语义搜索系统,包括:

建立模块,用于建立语义本体库;

分析模块,与所述建立模块连接,用于根据语义本体库分析句子,得到句子的名词性概念、动作概念和倾向性,得到语句的语义描述,统计分析段落主要语义指代,然后利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储;

探测和抓取模块,与所述分析模块连接,用于根据语义本体库进行行业相关数据探测和抓取。

优选地,所述语义本体库包括行业概念体系、概念之间语义关系、词语与概念之间的关系。

优选地,所述语义本体库包括行业无关的内置本体库和行业相关的行业本体库。

优选地,所述根据语义本体库进行行业相关数据探测和抓取,具体包括:采用网络行业信息探针,利用语义本体库,通过URL链路、搜索引擎跳板等手段,找备选网站,然后验证网站或者子站、子目录是否为企业相关信息、相关密度是什么,并通过网站拓扑、URL链路,form表格对深度网络进行挖掘,以找潜在数据源。

优选地,所述采用网络行业信息探针,具体包括不断探测一个站点网页,通过自动填充表单的方式,测试返回数据,从而找到最合适的表单格式,找到表单格式之后,自动提交表单,比较获取网页。

本发明中,通过分析句子,得到句子的名词性概念、动作概念和倾向性、语句的语义描述,然后统计分析段落主要语义指代,利用文档篇章结构总结篇章主要描述对象、语义倾向性等语义基本信息,并与文档一起关联存储,以支持语义搜索和情报分析。并且可以利用企业搜索需求所关注的一般为针对性强的行业内信息的特点,结合业已相当丰富的互联网资源,快速构建适合本项目所提出的语义搜索模型中所需要的本体,然后利用本体语义信息丰富的特点,实现了实用的、语义层面的行业定制搜索引擎。

附图说明

图1为本发明实施例提出的一种语义搜索方法流程图;

图2为本发明实施例提出的一种语义搜索系统结构图。

具体实施方式

如图1所示,本发明实施例提出了一种语义搜索方法及系统,包括以下步骤:

步骤101,建立语义本体库。其中,语义本体库描述的要点包括行业概念体系、概念之间语义关系、词语与概念之间的关系等。构建该语义本体库,需要利用数据挖掘和互联网资源相互对照实现概念体系和语义关系等,并提供可视化人工修整工具,大大缩减构建成本。语义本体库主要为两套,一套是行业无关的内置本体库,可描述一般性、行业无关的词汇和语言概念,并且用户可以通过系统自动更新来更新该本体库;一套是描述行业相关的行业本体库,主要描述行业概念以及概念之间的关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司,未经安徽华贞信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410537867.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top