[发明专利]一种基于化工行业的搜索方法在审
申请号: | 201910779876.3 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110569420A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 曹磊 | 申请(专利权)人: | 上海摩库数据技术有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 31270 上海翰信知识产权代理事务所(普通合伙) | 代理人: | 张维东;董佳 |
地址: | 201109 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 结构式数据 搜索方式 相似搜索 子结构 数据库 存储 目标化合物 反馈目标 化工行业 接收输入 匹配成功 数据存储 解析 匹配 | ||
本发明涉及一种基于化工行业的搜索方法,包括以下步骤:数据存储,将待存储的化合物以多种形式存储于数据库中;接收输入的搜索描述,解析出搜索描述对应的入参化合物的结构式数据;进行预搜索,若预搜索步骤搜索到数据库中有与入参化合物的结构式数据匹配的化合物的结构式数据,则确定匹配成功的化合物的结构式数据对应的目标化合物的ID,并反馈目标化合物的ID;否则,则选取结构式搜索中的一种搜索方式进行搜索,结构式搜索的搜索方式包括精确搜索、子结构搜索和相似搜索。通过使化合物的多种形式参与搜索,加快了搜索速率;通过采用结构式搜索,实现了精确搜索、子结构搜索以及相似搜索,从而满足用户的搜索要求,提高了搜索质量。
技术领域
本发明涉及数据搜索技术领域,特别涉及一种基于化工行业的搜索方法。
背景技术
随着社会的发展,搜索技术已经遍布于各个网站,无论是专有的搜索网站,还是各个电商网站,甚至公司内部系统,都离不开搜索技术。搜索的速率直接影响用户的体验,由于业务的增多以及时间的累加,后台数据量持续增长,由开始一两百万数据扩展到后面几千万甚至上亿的数据时,过去使用mysql支持100W-200W的结构式搜索已经不能满足现在的搜索需求了。
并且,对于化工行业的搜索更是不同于普通的数据搜索,化工行业中的化合物等有其独特的书写方式,例如化合物的原始结构式、分子式以及分子量等都有可能参与搜索,而目前普通是搜索方式大多都是文字性的搜索,与化工行业的搜索有着巨大的差别,且现有技术中目前并无如何对化工行业进行搜索的介绍,也无相关技术对化工行业搜索的速率进行提升。
因此有必要提供一种基于化工行业的搜索方法,实现化工行业的搜索,并且有效的提高搜索速率和搜索结果的准确性。
发明内容
本发明的目的在于提供一种基于化工行业的搜索方法,实现化工行业的搜索,并且有效的提高搜索速率和搜索结果的准确性。
为了解决现有技术中存在的问题,本发明提供了一种基于化工行业的搜索方法,包括以下步骤:
数据存储,将待存储的化合物以多种形式存储于数据库中;
接收输入的搜索描述,解析出搜索描述对应的入参化合物的结构式数据;
进行预搜索,若所述预搜索步骤搜索到数据库中有与所述入参化合物的结构式数据匹配的化合物的结构式数据,则确定匹配成功的化合物的结构式数据对应的目标化合物的ID,并反馈目标化合物的ID;
若所述预搜索在数据库中没有匹配成功的化合物的结构式数据,则选取结构式搜索中的一种搜索方式进行搜索,所述结构式搜索的搜索方式包括精确搜索、子结构搜索以及相似搜索。
可选的,在所述基于化工行业的搜索方法中,基于化工行业的搜索方法所采用的数据库包括pgsql,所述数据存储包括以下步骤:
存储待存储的化合物的结构式数据;
对化合物的结构式数据加密,生成化合物加密数据,存储化合物加密数据;
对化合物的结构式数据进行解析,生成第一种维度的数据、第二种维度的数据、第三种维度的数据以及第四种维度的数据,将这四种维度的数据存储于数据库中;
存储用于结构式搜索的固定指纹值。
可选的,在所述基于化工行业的搜索方法中,
所述第一种维度的数据包括mol_weight属性,为化合物的分子量;
所述第二种维度的数据包括dfp01属性;
所述第三种维度的数据包括以下属性:n_atoms、n_bonds、n_rings、n_C2、n_C、n_b1、n_b2、n_bar、n_r6以及n_rar。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海摩库数据技术有限公司,未经上海摩库数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910779876.3/2.html,转载请声明来源钻瓜专利网。