[发明专利]一种物资编目检索方法在审
申请号: | 201510873752.3 | 申请日: | 2015-12-02 |
公开(公告)号: | CN105279287A | 公开(公告)日: | 2016-01-27 |
发明(设计)人: | 陈飞;姚文明;袁延长;张雯 | 申请(专利权)人: | 中国电子科技集团公司第十五研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 代丽;仇蕾安 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 物资 编目 检索 方法 | ||
技术领域
本发明涉及信息检索技术领域,具体涉及一种物资编目数据检索方法。
背景技术
物资编目是指对物资进行合理的分类,统一赋予每个物资品种唯一的标识码,统一注册和管理物资属性数据,统一构建包含基本标识数据、属性数据、供应商数据、产品数据的信息资源库,为物资在加工生产、计划采购、运输储存、配送使用等环节的自动识别、数据检索与交换提供支撑和服务。
编目数据检索功能是在物资编目系统中检索出用户需要的物资编目数据。传统的物资检索是按物资名称进行,检索是否存在相关物资,然而由于各物资编目时的方法不统一,仅靠物资名称检索到的物资与实际所需物资可能会相差较大。
传统的信息检索按照内容类型可以分为非结构化数据检索、半结构化数据检索和结构化数据检索。在一个文档集合中找到用户需要的资料,文档集合中的信息通常是文本,这种检索就是一种非结构化信息检索。绝对意义的非结构化数据并不存在,通常会把文本数据认为是典型的非结构化数据。但是考虑到其中的隐含语言结构等信息(文本的结构,如标题、段落等),它们也不能完全算是非结构化数据。这些数据通常会和网页等具有格式标记的数据统一称为“半结构化数据”。本发明通常接触到的搜索引擎就是用来处理这一类信息。结构化数据通常指关系数据库中存储的结构化数据,或者是有清晰结构的文档。
物资编目信息应该算是一种半结构化的数据,而物资编目检索过程也就可以看成是一个物资编目专用的信息检索过程。对于半结构化的数据来说,文本、结构都很重要。以XML这个典型的半结构化数据为例,通常半结构化检索方法会默认文本有更高的优先级,且设定了很多前提假设,如,对结构信息的非精确匹配、按结果的相关度进行排序等。这些对于物资数据信息而言是不可取的,因为不同属性之间的数据即便完全一样,也很难说有什么关联关系。比如,有两个数值型的属性,其中的值都是一个数字5。虽然属性值是一样的,但是无从判断两个属性是否为物资提供了相同的信息。这里也佐证了属性之间的关联性。至于这些关联对物资的影响,应该放到属性编制时来考虑,而不是在检索时。
因此,需要一种新的物资编目数据的检索方法,能够快速、有效地检索到想要的物资。
发明内容
有鉴于此,本发明提供了一种物资编目检索方法,能够快速、有效地检索到所需物资。
本发明的物资编目检索方法,包括如下步骤:
步骤1,对物资编目系统库中的物资编目数据进行预处理,具体包括如下子步骤:
步骤1.1,计算物资编目中各物资属性的属性权重,其中,物资属性的属性权重与其对应的信息量相关,即与该物资属性在所有物资编目数据中出现的频率成反比;
步骤1.2,按照信息检索的倒排索引方式,将编目系统中的物资按照物资属性进行倒排索引,获得物资索引目录;
步骤2,根据待检索物资Y的物资属性及属性值,分别按照步骤1.1计算待检索物资Y的各物资属性的属性权重;根据物资Y的物资属性,分别从步骤1.2获得的物资索引目录中检索出包含有该物资属性的物资,将所有检索出来的物资组成物资集;
步骤3,针对待检索物资Y的物资属性ai,ai为待检索物资Y的第i个物资属性,计算待检索物资Y的物资属性ai的属性值VYai与步骤2检索出的物资集中的每个物资X的物资属性ai的属性值VXai之间的相似度SimAttribute(VYai,VXai);其中,SimAttribute(VYai,VXai)根据物资属性编制阶段时规定的物资属性ai的编写规则,即物资属性ai的模式代码确定;
步骤4,计算待检索物资Y与物资X之间的物资相似度SimMaterial(Y,X),其中,
SimMaterial(Y,X)=Σai∈Y(Weight(Yai)×Weight(Xai)×SimAttribute(VYai,VXai))
其中,Weight(Yai)和Weight(Xai)分别是待检索物资Y和物资X的物资属性ai对应的物资属性权重;
步骤5,按照步骤4依次分别计算出待检索物资Y与步骤2检索出的物资集中的所有物资的物资相似度,并按物资相似度大小,将物资集中的物资进行由高到低的排列,即为检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所,未经中国电子科技集团公司第十五研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510873752.3/2.html,转载请声明来源钻瓜专利网。