[发明专利]一种从文献中自动识别实验方案的方法无效
申请号: | 201110082965.6 | 申请日: | 2011-04-02 |
公开(公告)号: | CN102169493A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 何芳连 | 申请(专利权)人: | 北京奥米时代生物技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 冯铁惠 |
地址: | 102488 北京市房山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 自动识别 实验 方案 方法 | ||
技术领域
本发明涉及一种从文献中自动识别实验方案的方法。
背景技术
在生命科学领域,研究者和技术人员常常需要能够从海量的文字资料中快速准确地获取与实验方案相关的内容,以便对其进行深入的分析或者进一步的知识发现。所以,从数量庞大、内容复杂的文献中快速定位到自己所需的内容是摆在科技人员面前的一个不可回避而又很有意义的问题。
现有的工作方式中,从生命科学文献中提取实验方案段落主要依赖于人工对文献内容进行通读,然后再对它们进行标注提取。该种工作方式需要许多具有丰富经验和专门知识的分类人员做大量的工作,不仅代价高昂,而且效率低下。
发明内容
本发明的目的是提供一种从文献中自动识别实验方案的方法,可以很好的解决上述问题。
本发明的目的是通过以下技术方案来实现:
一种从文献中自动识别实验方案的方法,包括如下步骤:读取所述文献中数字化的文献内容;将文献内容划分为多个文本段落;基于词频统计,采用特征向量表示文献内容中所有的文本段落;对文本段落的原始特征向量进行高层次特征向量的提取;通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。
优选的,步骤“将文献内容划分为若干文本段落”后,“基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤:对文献内容中的所有的文本段落进行预处理,具体包括:
去除所述文本段落中的停用词;
对文本段落中的词根进行还原;
将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。
优选的,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为:
给所述词条加上与该词条对应的权重;
将所述文本段落映射成特征向量。
优选的,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为:
通过无监督学习方法进行文本段落的特征向量的抽取训练;
通过无监督学习方法对新的文本段落进行高层次特征向量抽取。
本发明提供了一种可方便应用于计算机,能够针对生命科学研究中的海量文献,通过高层特征的提取和上下文无关/相关分类器的构造,自动的提取出与实验方案有关的段落,代替人工识别选取,具有高效、准确的特点。
附图说明
下面根据附图和实施例对本发明作进一步详细说明。
图1为本发明实施例1提出的一种从文献中自动识别实验方案的方法流程图;
图2为本发明实施例1提出的一种从文献中自动识别实验方案中S13的具体流程图;
图3为本发明实施例1提出的一种从文献中自动识别实验方案中S14的具体流程图;
图4为本发明实施例1提出的一种从文献中自动识别实验方案中S15的具体流程图。
具体实施方式
实施例1
参见图1,提出一种实验方案自动识别方法,并做进一步说明如下:
S11、读取文献中数字化的文献内容。
S12、将文献内容划分为若干文本段落,保存该文本段落的总数N。
S13、对文献内容中的所有的文本段落进行预处理,获取噪声被初步降低的文献内容。
参见图2,其具体包括如下步骤:
S131、选择未经过预处理的文本段落,并去除该文本段落中的停用词。
S132、对该文本段落中的词根进行还原。
S133、将未被特征向量表示的文本段落分解为一系列无序的词条,并获取上述词条在该文本段落中的词频tf(t,p)和出现该词条的文本段落的总数nt。
文本段落由一系列词条组成,根据现有构词规则,将文本段落分解为一系列无序的词条,将词条在上述文本段落中出现的次数统计为tf(t,p),即为上述词条在上述文本段落中的词频,统计所有词条的nt,nt为文献内容中,出现该词条的文本段落的总数。
S134、判断文献内容中是否存在未经过预处理的文本段落。如果是,转至S131;如果否,对该文献的预处理过程结束,该文献内容的噪声也被初步降低。
S14、基于词频统计,采用特征向量表示文献内容中所有的文本段落。
参见图3,其具体包括如下步骤:
S141、根据上述N、tf(t,p)、nt给文本段落中每一词条加上与该词条对应的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奥米时代生物技术有限公司,未经北京奥米时代生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110082965.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高分辨率遥感图像的变化检测方法
- 下一篇:桥接式电极的布设方法及其结构