[发明专利]数据库构建方法、文件检索方法以及装置在审
申请号: | 201910881925.4 | 申请日: | 2019-09-18 |
公开(公告)号: | CN112530523A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 希夫尚卡尔·乌玛尚卡尔;庞卡·库玛;黑马 | 申请(专利权)人: | 智慧芽信息科技(苏州)有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/14 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 于丽君 |
地址: | 215500 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 构建 方法 文件 检索 以及 装置 | ||
1.一种数据库的构建方法,其特征在于,所述数据库应用于搜索引擎,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文件包括:
从数据源中获取文件,形成文件集;
根据预设条件,从所述文件集中获取目标文件。
3.根据权利要求1所述的方法,其特征在于,所述使用所述词条构建数据库包括:
对生物学领域的专业名词和/或属性信息进行分析,得到关联信息,其中,所述属性信息包含生物序列的相似百分率、物种、制备方法、变体、功能、内含物、同源性、涉及的药物、涉及的疾病中的一种或几种;
根据所述关联信息对词条进行关联处理,得到生物序列数据库。
4.一种基因序列关联度的标注方法,其特征在于,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列,其中,所述数据库根据权利要求1-3任一项所述方法构建;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度。
5.一种文件检索方法,所述方法包括:
接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
从如权利要求1-3任一项所述的方法得到的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。
6.根据权利要求5所述的方法,其特征在于,根据所述候选词条得到检索结果,包括:
根据所述候选词条中的文件标识确定候选文件;
标注所述候选文件的预设部分的生物序列和/或属性信息;
将标记的候选文件的预设部分以及对应的序列属性列表作为检索结果显示,其中,所述序列属性列表根据所述候选词条中的生物序列和属性信息获得。
7.根据权利要求5所述的方法,其特征在于,若用户选择的检索结果类型为功能相似性视图,根据所述候选词条得到检索结果包括:
根据所述候选词条的属性信息确定目标生物序列的功能;
计算各个目标生物序列之间的相似性百分率;
根据各个目标生物序列相似性百分率生成各个目标生物序列的关系图,其中,所述关系图中每个节点对应一个目标生物序列,所述关系图中每个节点的颜色和/或形状根据对应的目标生物序列的功能设置;
将所述关系图作为检索结果显示。
8.一种数据库构建装置,其特征在于,包括:
特征提取模块,获取目标文件,提取目标文件中的生物序列与属性信;
关联模块,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
存储模块,使用所述词条构建生物序列数据库。
9.一种文件检索装置,其特征在于,所述装置包括:
获取模块,用于接收检索信息,其中,所述检索信息为生物序列、生物序列的属性信息中的一种或几种的组合;
词条匹配模块,用于从根据权利要求1-3任一项所述的方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
检索结果生成模块,用于根据所述候选词条得到检索结果。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧芽信息科技(苏州)有限公司,未经智慧芽信息科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881925.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现自动降级的方法和装置
- 下一篇:一种测量配置方法、终端及基站