[发明专利]数据库构建方法、文件检索方法以及装置在审
申请号: | 201910881925.4 | 申请日: | 2019-09-18 |
公开(公告)号: | CN112530523A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 希夫尚卡尔·乌玛尚卡尔;庞卡·库玛;黑马 | 申请(专利权)人: | 智慧芽信息科技(苏州)有限公司 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G06F16/14 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 于丽君 |
地址: | 215500 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据库 构建 方法 文件 检索 以及 装置 | ||
本申请涉及一种数据库的构建方法、装置、基因序列关联度的标注、装置、文件检索方法、装置、计算机设备以及计算机可读存储介质,该申请的方案从目标文件中提取生物序列以及属性信息,基于提取的生物序列与属性信息构建数据库中词条,用户在基于该数据库进行检索时,由于服务器即可以通过词条中生物序列、属性信息或者二者结合的方式为用户匹配词条,因此,本申请的数据库在被应用于检索平台时,可以为用户提供生物序列检索、生物序列属性检索以及综合生物序列和生物序列属性等多样的检索支持。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
背景技术
在专利文件中生物序列一般以字母串或者序列号的形式表示。这些生物序列一般用于描述DNA、RNA,其他核苷酸和蛋白质的主要分子结构以及表达携带的遗传信息。
在大多数情况下,权利要求中的生物序列一般可以通过三种方式主张保护:
1、基于生物序列本身结构主张保护。通过这种方式主张保护,若可以基于具体实施方式提供相关的证据,则权利要求主张保护的范围可以扩展为与主张保护的序列达到一定的相似性百分率(同源性)。
2、基于生物序列的来源、功能和内含物主张保护。
3、基于生物序列起作用的产品(尤其是药物)。
由于专利文件中生物序列的表达方式的特殊性,这使得用户在对该领域的技术进行检索时极其困难。尤其在可专利性或新颖性检索、防止侵权检索或自由使用权检索(FTO)、预归档可专利性检索以及有效性或无效性检索上,传统的检索检索方法表现难以达到用户的期望。
发明内容
基于此,有必要针对上述技术问题,提供一种数据库构建方法、装置、一种生物序列关联度的标注方法、系统、一种文件检索方法、装置、计算机设备和存储介质。
第一方面,本申请提出一种生物序列数据库构建方法,所述方法包括:
获取目标文件;
提取目标文件中的生物序列与属性信息;
将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
使用所述词条构建数据库。
第二方面,本申请提出一种基因序列关联度的标注方法,所述方法包括:
根据所述数据库与属性信息输出具有至少一种属性的相关基因序列;
根据每个所述相关基因序列与属性信息的相关联数量标注对应的各个所述相关基因序列的相关维度
第三方面,本申请提出一种文件检索方法,所述方法包括:
接收检索信息;
从本申请任一实施例数据库构建方法构建的数据库中为所述检索信息匹配出至少一个候选词条;
根据所述候选词条得到检索结果。
第四方面,本申请提出一种数据库构建装置,包括:
特征提取模块,获取目标文件,提取目标文件中的生物序列与属性信;
关联模块,将所述目标文件的文件标识与对应的生物序列以及属性信息进行关联得到词条;
存储模块,使用所述词条构建生物序列数据库。
第五方面,本申请提出一种生物序列关联度的标注系统,所述系统包括:
基因序列输出单元,用于根据所述数据库与属性信息输出包含至少一种属性的相关生物序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧芽信息科技(苏州)有限公司,未经智慧芽信息科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881925.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现自动降级的方法和装置
- 下一篇:一种测量配置方法、终端及基站