[发明专利]一种面向纺织原料基于语义的数据搜索引擎无效
申请号: | 201010160377.5 | 申请日: | 2010-04-30 |
公开(公告)号: | CN101937444A | 公开(公告)日: | 2011-01-05 |
发明(设计)人: | 吕瑞宝;闫红桥;沈霞锋 | 申请(专利权)人: | 绍兴易企信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 绍兴市越兴专利事务所 33220 | 代理人: | 蒋卫东 |
地址: | 312025 浙江省绍兴*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 纺织 原料 基于 语义 数据 搜索引擎 | ||
技术领域
本发明涉及电子与信息领域计算机软件,具体说是涉及一种面向纺织原料基于语义的数据搜索引擎,特别适用于纺织企业信息交互。
背景技术
近年来,随着大量新的电子商务模式产生,部分企业针对纺织业的供求状况,致力于研究网上撮合交易,网上超市,及会员制的买卖信息交易。和国外相对成熟的电子商务比较,尚存在一定的差距。究其原因:
一是国内部分中小企业领导人使用计算机的普及率较低,使人对网络的虚拟存在产生一定的疑惑;
二是国家尚未出台明确的电子商务政策法规,网上违规操作屡有曝光,在一定程度上限制了电子商务的发展速度。但随着我国电子商务政策的日趋完善,政府又明确提倡要大力发展电子商务,大批新的交易平台及方法应运而生,不过目前多数产品均类似于B to B的形式,以交换有偿信息模式居多,部分则以中介模式参与实际的企业之间的交易,以返利点盈利。这些形式都导致了客户无法快捷地找到相应信息。即便在互联网上发布的信息但由于没有科学完整的定义信息标题内容,即便是搜索引擎也无法查到自己想要的信息内容,存在信息的失漏。而且市场上流通的软件操作大都需要一定的计算机基础,不少潜在的客户想用却不会操作,导致普及率受到影响。
发明内容
本发明的目的在于克服上述现有技术的缺陷,开发一种内容专业化(纺织材料领域)的软件,突破传统的文字输入形式,以选项形式定义产品标题,使搜索更加快捷、全面;设定了信息的配对功能,使用者发布一条自己的产品信息即可同时智能寻找与之匹配的求购信息。
本发明是通过下述技术方案得以实现的:一种面向纺织原料基于语义的数据搜索引擎装置,其特征在于:包括三大部份:客户端操作界面,基于语义的搜索引擎,市场行为数据仓库。
基于语义的数据搜索软件,包括硬件和软件两大部分,硬件部分包括服务器和设置在各职能部门部分的客户端,通过总线联接成局域网络,或组建成以太网络。
软件部分包括:
系统采用asp+delphi语言进行开发,其中核心部分是由asp语言开发,登陆界面框架是delphi开发的,另外系统配置日志处理模块采用java语言开发。可选择一個以上資料库进行资料库获取。具有夸资料库的索引浏览、Hyperlink显示、资料排序能力。
本发明还提供一种面向纺织原料基于语义的数据搜索引擎方法,其特征在于,包括以下步骤:
(1)、从元数据文档存储区读取文档信息;
(2)、利用筛选器过滤元数据文档中的格式信息和非文字信息,生成文字串和属性/值对,并把它传递给索引引擎;
(3)、对提取的字符串进行反向索引:即记录包含搜索词的文档的信息、出现次数以及搜索闻在文档中的相关位置;就是说将习惯思维的对应关系:“文件号”对“文件中所有关键词”,利用倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键同的所有文件号”,即某个查询词在某些文件中出现过;反向索引可以应用统计和概率公式,以便快速计算文档的相关性;
(4)、根据搜索词对搜索到的元数据集按照特定算法进行排序,把最相关的文档放在最前面,提高搜索的准确性:经过对轻纺原料数据库共享数据进行长期的分析总结,项目内部制定自己的数据权重分析方法,采用的排序算法以此为基础,并结合搜索引擎排序算法常用的PageRank,也就是链接分析算法得到的。
本发明的有益效果是,可以利用基于语义的搜索和服务引擎,通过系统的自动抓取有用信息,生成一个强大的数据仓库。使用户能非常方便快捷的检索到所需信息,克服了原有软件不支持模糊查询,受到用户的一致好评。
附图说明
图1为本发明的流程框架图。
图2为本搜索系统的搜索界面形式(部分)。
图3读取的XML关键词字符串
图4字符串进行分词后的效果图
图5倒排索引的索引结构
图6元数据节点列表
图7针对特定节点提取出的关键词
图8元数据搜索引擎入口
具体实施方式
过去由于思路和技术的局限性,要实现针对XML模式的全文检索方式是一个难题。为了实现针对元数据的查询检索,系统采取了借助数据库搜索技术的方法来实现元数据的查询。首先分析用户查询元数据时最感兴趣且最容易使用的元数据节点,将这些节点作为数据表字段,提取每个元数据中该节点的属性值作为字段值。同时将元数据文件采用大文件的方式直接存储在数据库中,提供网络发布,便于用户查看。用这种方式,也可以满足一部分用户对于数据检索的需求,但是很明显,这种方式存在很多不足之处。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于绍兴易企信息科技有限公司,未经绍兴易企信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010160377.5/2.html,转载请声明来源钻瓜专利网。