[发明专利]一种基于语义的油田搜索引擎构建方法在审
申请号: | 201610078536.4 | 申请日: | 2016-02-03 |
公开(公告)号: | CN107038172A | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 佟星;刘阳;张天石;曾鹏;于海斌;顾峰硕;许秀珍 | 申请(专利权)人: | 中国科学院沈阳自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 沈阳科苑专利商标代理有限公司21002 | 代理人: | 许宗富 |
地址: | 110016 *** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 油田 搜索引擎 构建 方法 | ||
技术领域
本发明涉及油田搜索领域,具体地说是一种基于语义的油田搜索引擎构建方法。
背景技术
随着因特网应用的普及,Internet已发展成为一个巨大的分布式信息空间。由于Internet面向社会和个人,信息的产生不受约束,人类的信息世界呈现出前所未有的复杂现象。Web信息的大容量、异构性、分布性、动态性等特点造成了“信息过载”,如何有效地为用户提供Web信息检索已经成为一项重要的研究课题。20世纪60年代以来,信息检索领域取得了许多研究成果,这些成果被成功地应用在Web上,产生了搜索引擎,例如雅虎,谷歌,百度等。大量各种语言的搜索引擎的出现,使这些成熟的搜索引擎系统也成为信息的宝贵资源,成为人们获取信息的重要途径。目前,在网上常见的检索工具有几十种,按检索内容可将其大致分为3类:综合型检索工具,主题型检索工具,特殊型检索工具。综合型检索工具应用的最为广泛,这种类型检索工具可以就任何领域、任何关键词的组合进行检索,但返回结果往往成千上万,所能够检索的内容包罗万象,而检索某一特定专业网络信息的效果不太理想。主题型检索工具是针对某一特定领域的信息进行检索,由于每个学科专业都有自己专门的词汇和用语,主题型检索工具使用与之相应的标引和检索语言进行检索,其效果优于综合型检索工具。专题型检索工具为有效利用网上科技信息、共享最新科技成果的工具,但是,目前网上专题型检索工具的数量不多,无法满足社会各个行业工作者的需求。特殊型检索工具是指用来在网上检索地址、电话号码、图片、地图等特殊信息的检索工具,特殊型检索工具的开发往往受到各方面的限制。
大型油田都具有信息来源分散、数据保密级别高和通用性较低等特点。在开展油气田数字化建设的程中,由于各个部门的要求的工作性质不一样,因此 在开发过程中针对许多部门的个别要求建立了应用数据库和工作文档,虽然这些信息化的数据都能很好为各个部门服务,但也不可避免的带来了一些问题,比如信息分布散、资源共享难、建设周期长等。这些问题的存在,严重影响和制约了油田科技工作者的工作效率,也使得油气田资源并没有得到充分的开发与利用。
在油气田开发过程中,为了进一步的为地质勘探,油田开发提供科学的方法和强有力的数据,面向油田知识的信息检索工具的研发和应用已经破在眉睫了。
发明内容
针对现有技术的不足,本发明提供一种能够方便的实现资源共享,信息整合的基于语义的油田搜索引擎构建方法。
本发明为实现上述目的所采用的技术方案是:
一种基于语义的油田搜索引擎构建方法,包括以下步骤:
首先构建油田本体库,然后抓取油田领域网络中的信息,最后构建油田搜索引擎。
所述油田本体库的构建包括以下过程:
首先,定义类和类的层次,确保类的等级是“is-a”关系;
其次,定义类的属性和属性分面,类的属性根据内在特性、外在特性、局部关系和个体关系四种特性进行分层和定义;属性分面包括属性取值类型、允许的取值、取值个数、同义词和其它属性取值特征;
最后,实现油田本体库的构建。
所述抓取油田领域网络中的信息包括以下步骤:
步骤1:将种子网站作为抓取源头,选取目标URL,按评分由高到低依次选取若干URL;
步骤2:对蜘蛛线程进行调度,如果缓存中文件数目大于所选取URL的1/2 时,蜘蛛线程休眠;否则蜘蛛线程从休眠状态唤醒,并将URL分配给该蜘蛛线程,开始爬取油田领域网络中的信息;
步骤3:如果URL分配完毕,则完成抓取过程,蜘蛛线程进入休眠状态。
URL与域名为一一对应关系。
所述构建油田搜索引擎包括以下步骤:
步骤1:对网页文本进行过滤,把无用广告和弹出窗口过滤掉;
步骤2:对过滤后的网页文本进行分词,并将分词结果与本体库中的油田专业词汇进行匹配,保留匹配结果;
步骤3:在本体库中找出与匹配结果同义的关键词,即为关键词的同义词;
步骤4:将关键词以及关键词的同义词利用lucene构建倒排索引。
本发明具有以下有益效果及优点:
本发明提高工作效率,为油田信息提供专业的信息检索,提高采油厂经济效益。
附图说明
图1是本发明的方法流程图;
图2是本发明的抓取流程图;
图3是油田本体库构建图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院沈阳自动化研究所,未经中国科学院沈阳自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610078536.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:施工升降机解困装置
- 下一篇:应用查询方法和装置、相似应用检测方法和装置