[发明专利]一种基于组合特征加权的科技文献标注精简研究结论的方法流程在审
申请号: | 201610125685.1 | 申请日: | 2016-03-04 |
公开(公告)号: | CN107153664A | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 贺惠新;史亚平;张魏巍;熊海涛 | 申请(专利权)人: | 同方知网(北京)技术有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 史霞 |
地址: | 100084 北京市海淀区清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明新型公开了一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,实际应用中更贴近问题的本质,从而有很高的发明效果。 | ||
搜索关键词: | 一种 基于 组合 特征 加权 科技 文献 标注 精简 研究 结论 方法 流程 | ||
【主权项】:
一种基于组合特征加权的科技文献标注精简研究结论的方法流程,其特征在于:包括分类抽取流程,既是基于训练语料,做数据前清洗,然后分句获得句子和类标签,句子特征选择进行特征化,然后训练分类器,评价分类器,对训练的分类器进行保存序列化,在应用阶段,获得应用文本,对其同样数据清洗,分句,然后特征化(应用阶段chi词特征是使用训练阶段的chi词),加载训练分类器对应用文本进行研究结论预测,之后对预测的结果句子人工审核,进行后数据清洗处理,然后将这些清洗规则加入到原有程序中,迭代实验,具体的步骤如下:步骤一:前数据清洗模块由于句子本身会有乱码公式表格英文字母数字等,需要对句子进行预处理去掉这些脏东西,在这里需要数据前清洗,阅读大量待处理的文本,总结出的文本前处理特点,结合其特点采用规则处理清洗;步骤二:训练阶段模块获取训练样本全文文本,这些训练样本全部经过人工标注,即对全文字段中的全部内容(这里指的是正文的全部内容,不包括参考文献等),按照句子级别(句号)标出属于研究结论的句子,非研究结论的句子不予标注,一篇文章可以标注多个结论句子,经过程序处理获得全篇的句子(保持原文句子顺序)和对应的标签属于研究结论的句子对应的标签为正例1,不属于研究结论的句子对应标签为反例0,假如一篇被标注的文章有50句子,标记为研究结论的5句,其余45句是非研究结论,那么正例就是5句话,反例45句话,这样就获得了句子样本数据,假如有10篇标注的文章,那么按照文章的顺序,每篇文章分50个句子,那么就是500个句子,具体的,训练过程的算法为:(1)获取样本获取训练样本文句子记录为集合Sens={Sens(i)},对应的句子训练标签 集合为Labels={Labels(i)},句子总数为N,各个句子表示为Sens(i),其中1=<i<=N,要求N尽可能大,N>=10000,Labels(i)的取值为1或0两种取值,其中1代表本句子是研究结论句,为正例表示,0代表本句子是非研究结论句子,为反例表示;(2)对训练语料Sens(i)句子进行特征化表示,句子特征化这里使用了以下特征:人工标记的标识词特征1个、chi词频特征200个、句子所在文章级别的相关特征4个、句子级别的相关特征10个、词语级别的相关特征3个、句序特征1个、句序比特征1个、句子结论段特征4个,一共224个特征,可以表示为F={f1,f2,f3……fn},fi表示每个特征n为224,f0到f224一共224个特征,每个句子都要提取224个特征;步骤三:选取分类器训练与评价模块(31)样本类平衡处理,这里分类属于二分类问题,由于样本中正例(研究结论句子很少),反例(非研究结论句子很多)造成样本分布不均匀,对于这些不均匀样本直接采用分类的话会影响分类效果,所以需要进行样本类平衡处理,有三种办法可以处理:1增加少数类样本数量,2减少多数类样本数量,3增加少数类样本的权重比例。可以根据需要采用任何一种方法处理;(32)训练分类器,使用常用的分类器DecisionTree、SVM、GaussianNB、RandomForest、GradientBoosting等分别对输入特征矩阵F和label训练,可以选用5折交叉验证,(80%数据训练,20%的数据来测试)来平均训练的分类器,某些情况下还要进行分类器的参数调优;(33)评价分类器,评价参数主要是预测标签的准确率,召回率,F值,a:正例测试文档被正确分类为该类的数量,b:负例测试文档被错误分类为属于该类的数量,c:正例测试文档被错误分类为不属于该类的数量,d:负例测试文档被正确分类为不属于该类的数量,准确率precision=a/(a+b),召回率recall=a/(a=c),F=(2*precision*recall)/(precision+recall),选择F值较大的分类器作为生成的模型,如果效果不太理想,需要调整分类器参数,选择好分类器之后,将训练得到的这个分类器序列化到硬盘上保存 起来,当需要应用测试的时候将其加载到内存即可进行应用预测;步骤四:应用分类器预测研究结论标签模块将待预测的rec文本全文字段的正文部分经过程序分句提取出对应的特征矩阵,{f0,f1......f223}这种形式,然后可以加载训练保存的分类器模型进行预测出对应的研究结论标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司,未经同方知网(北京)技术有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610125685.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种域名资源缓存方法及装置
- 下一篇:一种数字报纸展示方法及系统