[发明专利]一种从文献中自动识别实验方案的方法无效
申请号: | 201110082965.6 | 申请日: | 2011-04-02 |
公开(公告)号: | CN102169493A | 公开(公告)日: | 2011-08-31 |
发明(设计)人: | 何芳连 | 申请(专利权)人: | 北京奥米时代生物技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 冯铁惠 |
地址: | 102488 北京市房山*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 自动识别 实验 方案 方法 | ||
1.一种从文献中自动识别实验方案的方法,其特征在于,包括如下步骤:
读取所述文献中数字化的文献内容;
将文献内容划分为多个文本段落;
基于词频统计,采用特征向量表示文献内容中所有的文本段落;
对文本段落的原始特征向量进行高层次特征向量的提取;
通过上下文无关分类模型/上下文相关段落分类模型,判断文本段落是否为阐述实验方案的段落。
2.如权利要求1所述的方法,其特征在于,步骤“将文献内容划分为若干文本段落”后,“基于词频统计,采用特征向量表示文献内容中所有的文本段落”前;还包括步骤:对文献内容中的所有的文本段落进行预处理,具体包括:
去除所述文本段落中的停用词;
对文本段落中的词根进行还原;
将所述文本段落分解为一系列无序的词条,并获取所述词条在所述文本段落中的词频和出现所述词条的所述文本段落的总数。
3.如权利要求1所述的方法,其特征在于,步骤“基于词频统计,采用特征向量表示文献内容中所有的文本段落”具体为:
给所述词条加上与该词条对应的权重;
将所述文本段落映射成特征向量。
4.如权利要求1所述的方法,其特征在于,步骤“对文本段落的原始特征向量进行高层次特征向量的提取”具体为:
通过无监督学习方法进行文本段落的特征向量的抽取训练;
通过无监督学习方法对新的文本段落进行高层次特征向量抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奥米时代生物技术有限公司,未经北京奥米时代生物技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110082965.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高分辨率遥感图像的变化检测方法
- 下一篇:桥接式电极的布设方法及其结构