[发明专利]一种与特定功能相关的基因信息检索系统及用于该系统的检索词数据库的构建方法无效
申请号: | 200510037526.8 | 申请日: | 2005-09-27 |
公开(公告)号: | CN1744080A | 公开(公告)日: | 2006-03-08 |
发明(设计)人: | 黄仲曦;姚开泰 | 申请(专利权)人: | 南方医科大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
代理公司: | 广州市天河庐阳专利事务所 | 代理人: | 胡济元 |
地址: | 510515广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一与特定功能相关的基因信息检索系统,该系统利用具有输入和显示终端的计算机和在机内构建的由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库,通过网络服务器进入公共生物医学文献数据库检索出待查基因的相关文献,进行词频分析,从中提取基因的关键词,再经过专业处理,建立词频列表,最后通过聚类分析,检索出特定功能相关基因信息。本发明不仅具有定位准确,检索速度快,可避免重复劳动,节约大量的人力物力资源的的显著技术效果,而且还易于商业化开发推广。 | ||
搜索关键词: | 一种 特定 功能 相关 基因 信息 检索系统 用于 系统 检索 词数 构建 方法 | ||
【主权项】:
1、一种定功能相关基因信息检索系统,该系统包括一具有输入和显示终端的计算机、一网络服务器、公共生物医学文献数据库和公共基因名称数据库以及聚类分析单元,其特征在于还包括由基因名称数据库、词频基值数据库、字符串数据库和辅助检索词数据库组成的文献检索词数据库和一待查基因相关文献检索单元,该单元根据所输入的待查基因的官方缩写,从构建的文献检索词数据库中获取所有对应名称字符串和辅助检索词并进行编辑,依据文献检索词数据库中的原始信息,去除容易引起假阳性的名称字符串和辅助检索词,添加遗漏的名称字符串和辅助检索词,然后从公共生物医学文献数据库中检索包含有这些名称字符串和辅助检索词的文献记录并保存到指定的文件夹中;一待查基因词频分析单元,该单元先提取检索到的每篇文献记录的摘要字段,然后提取摘要字段中的每个词,用出现其中一个词的文献的数量除以该基因的相关文献总数,逐一计算出这些词在待查基因相关文献中的出现频率,即待查基因词频;一关键词提取单元,该单元将待查基因词频与词频基值数据库中的同一词汇的基值进行比较判别,删除基值高于1%~10%的词和待查基因词频值阈或者待查基因词频与词频基值的差值低于m=t+(k/n)×100%的词,然后挑选至少被两个基因所共有的词作为待查基因的关键词并保存记录;一关键词专业处理单元,该单元产生一个可编辑列表,在该列表中可进行关键词添加或删除、关键词单复数形式设置、关键词的权重设置和关键词的同义词为单一实体的设置以及编辑记录的保存;一词频列表建立、输出单元,该单元从词频分析单元计算出的词频中获取关键词在各个基因的相关文献中的词频,先将关键词的单数和复数形式的词频平均,得到关键词的词频,再乘以词频的权重,然后平均同一类同义词实体的关键词的词频,作为该同义词实体的词频,建立词频列表,最后输出聚类分析软件格式的所有关键词在各个基因的相关文献中的发生频率的词频列表,由所述的聚类分析装置对该词频列表文件中数据进行聚类分析并显示所得到的特定功能相关基因信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方医科大学,未经南方医科大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510037526.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种大口径深型非球面镜检测系统
- 下一篇:两柱塞液压变量泵及马达