[发明专利]从文献中自动获取QTL数据的方法在审
申请号: | 201710761497.2 | 申请日: | 2017-08-30 |
公开(公告)号: | CN107590448A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 袁晓辉 | 申请(专利权)人: | 武汉古奥基因科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F17/27 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于生物信息领域,尤其涉及从文献中自动获取QTL数据的方法。通过文本挖掘的方法自动从相关文献中挖掘分析QTL、基因功能等信息,利用计算机数据挖掘技术从PDF格式文献中自动获取QTL信息,从而解决当下人工阅读文献工作量大、速度缓慢、无法及时对新发表数及时处理的问题。同时,这个方法可以大大减少数据库构建的劳动负担。 | ||
搜索关键词: | 文献 自动 获取 qtl 数据 方法 | ||
【主权项】:
一种快速从文献中自动获取QTL数据的方法,其特征在于:一、从PDF格式的文献中提取出表格的结构和内容采用图像识别的方法对文献中的三线表进行分析处理,通过对页面逐行扫描,快速定位出表格线的位置,进而定位出表格的位置;通过对行分割线与列分隔线的定位,结合ocr技术,提取出表格的结构与内容;最后,在三线表的第一根线的上面,根据关键字提取出表格的Caption部分;二、含QTL信息的表格筛选如果表格中出现分子标记信息,就将该表格作为候选QTL表格;三、从筛选的表格中提取信息对于标准表格,直接提取表头字段内容,然后将内容和预定义的数据库字段比较确定对应列的内容类型;对于复杂表格而言,使用如下五条规则,处理多行表头和信息缺失情况,将其转换为简单表格:规则一,如果表格中超过60%的单元格为空,则抛弃该表格;规则二,确定表格中包含QTL信息的基本标准是表格中包含分子标记信息,判定表格中包含分子标记信息的方法是,抽取表格的前四行,利用正则表达式模糊匹配单元格中内容,判断是否包含marker、interval和loci词汇;规则三,对于表格中出现的一个表型、连锁群或者其他信息对应着多个分子标记的情况(1:n),以分子标记作为基准确定表格行数;规则四,对于表格中出现的一组分子标记、表型或连锁群信息对应多行其他信息的情况,用分子标记、表型或者连锁群信息填充其下的连续空白单元格;规则五,对于表格中不包含表型或亲本信息的情况,利用基于依存树的语法分析器从表格标题中提取这些信息补充到结果中;四、从文献文本中获取QTL信息在筛选的表格中,存在表格信息不完整的情况,为了补全表格中缺失的信息,分三步进行处理:第一步,扫描表格的标题和说明,提取与表格相关的描述性语句;第二步,对这些语句使用词库匹配模板来分析提取表格中缺失的信息;第三,如果第二步结果为空,再利用基于依存关系树的语法分析器挖掘表述语句中存储的表格缺失信息;五、步骤三、步骤四挖掘结果标准化和纠错对于表格和文本挖掘的结果,从三个方面标准化和纠错:(1)缩写比对:第一次出现词汇缩写的地方需要给出全拼;(2)有效性检查:没有性状或者分子标记的记录从最终结果中删除,另外利用先验知识数据库检查结果,如果发生矛盾则从最终结果中删除;(3)重复结果检查:标记、表型、年代、地域、亲本和方法信息完全相同的记录在最终结果中只保留一份。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710761497.2/,转载请声明来源钻瓜专利网。
- 上一篇:牛大力一体化装置
- 下一篇:一种数控机床的滚刀磨切机