[发明专利]一种针对顺序无关项组进行快速相近语义匹配的方法有效
申请号: | 201710714945.3 | 申请日: | 2017-08-19 |
公开(公告)号: | CN107451125B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 洪志令;王备战;林凡;吴梅红 | 申请(专利权)人: | 洪志令 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361008 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 顺序 无关 进行 快速 相近 语义 匹配 方法 | ||
现有管理系统在数据库设计时通常将不好描述的属性统归为用一个长字符串属性维度进行管理,该方式随着数据应用需求的深化,在数据相似性检索上存在一些问题。本发明从存在的问题点出发,将问题提升描述为通用化的顺序无关项组的相似性匹配问题,并提出了一种针对顺序无关项组进行快速相近语义匹配的有效解决方法。方法的主要思想是通过设计有效的编号方式,将原来由各属性名称组成的顺序无关项组编码变换为由编号值组成的顺序相关项组,之后对顺序相关项组进行快速的匹配计算。
技术领域
本发明涉及字符串相似检索领域,尤其是涉及一种针对顺序无关项组进行快速相近语义匹配的方法。
背景技术
在一些管理信息系统中,特别是制造业领域的管理系统,当对一事物的属性不好描述或者为了系统设计的灵活性考虑,通常在数据库设计时将这些不好描述的属性统归为一个长字符串的属性维度。
举例来说,制造业领域中,当对贴片电容的规格进行描述时,由于其规格涉及多个方面,可能的属性不好确定,同时后续还可能引入其他的属性,因此在数据库设计时,为了简化或可扩展性上的考虑,直接将规格设计为一长字符串字段,而其规格则描述为:X7R~2.2ΜF~25V~0805~10%~编带~白,之后整个字符串存入到数据库字段里。
这种设计方式在存储上是简单了,但是随着应用的深化及对数据的深度挖掘应用需求,一些企业需要对该字段进行相似性判断,以确定描述的是否为同一事物或相似事物。这时发现这些属性的描述放置位置是不固定,同一描述值可能放在第一个位置,也可能放在第三个位置;另外,由于人工录入这些属性值时,由于没有事先的属性值约束,输入的属性值即使要表达同一个意思,却也可能存在轻微的偏差,如属性值描述为“白”和“白色”,等等类似的问题。
目前企业对此问题束手无策,寻求管理系统提供商给予帮助支持,却始终得不到有效的解决办法。解决思路要么是需要对数据库进行重新设计,要么是拆分后逐项进行复杂的语义相似度计算,但计算效率相当低,无法进行实用。
针对此问题,本发明提出了一种针对顺序无关项组进行快速相近语义匹配的方法。方法不仅可以有效解决上面提到的问题,更可以扩展到解决通用的顺序无关项组的快速语义匹配问题。
发明内容
本发明提出了一种针对顺序无关项组进行快速相近语义匹配的方法。发明中所说的项是对某一事物相关属性的描述,描述可以是短语、符号标记等。当对一事物从不同角度进行描述时,就有了多个项,这些项没有先后的顺序关系,项的随机顺序组合就构成了顺序无关项组。在存储时,通过统一的间隔符(如逗号,波浪号等)将各个属性连在一起,形成一个长字符串。一个由间隔符连接多个项而组成的长字符串就是一个顺序无关项组。一个顺序无关项组Ri可以表示如下:
Ri = Ai~Bi~Ci~Di~Ei~…
其中Ai Bi Ci Di Ei等分别表示从不同角度对某事物的描述,它们在项组中的放置位置是随机的。波浪号“~”为间隔符或连接符,其将这些顺序无关的属性描述连接在一起。
为了达到对顺序无关项组进行检索的目的,即对于输入的某个顺序无关项组,可以在原有的所有项组中快速找出相似的匹配项,本发明设计了一种针对顺序无关项组进行快速相近语义匹配的方法。方法的主要思想是通过设计有效的编号方式,将原来由各属性名称组成的顺序无关项组编码变换为由编号值组成的顺序相关项组,之后对顺序相关项组进行快速的匹配计算。为了能够允许属性描述的细微偏差,变换后的编号值需要能够反映语义,即当属性的语义相近时,要求其编号值的差距也是相近的。
本发明方法的步骤如下:
(1)对所有顺序无关项组进行排重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于洪志令,未经洪志令许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710714945.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大口径沟槽管件内涂塑装置
- 下一篇:一种LED荧光粉的涂覆设备