[发明专利]一种大数据集中生物事件触发词的识别方法有效
申请号: | 201710148320.5 | 申请日: | 2017-03-14 |
公开(公告)号: | CN106933805B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈一飞;刘峰;韩冰青 | 申请(专利权)人: | 陈一飞;刘峰 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮 |
地址: | 210000 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 集中 生物 事件 触发 识别 方法 | ||
1.一种大数据集中生物事件触发词的识别方法,为并行欠采样方法,其特征在于包括以下步骤:
步骤1、数据分割,定义数据集D={(x1,y1),...,(xn,yn)}为训练数据集,其中xi∈Rm,i=1,2,...n为样本实例,Rm表示m维实数,且yi∈{0,1,...,l},i=1,2,...n为样本实例的所属类别,共有1+l个类别标签;定义Dα为多数类别数据集,其中包含有nj,j=0个属于类别y=0的样本实例,使α=nj,j=0;将多数类别数据集Dα随机分割为K个互不相交的多数类别子数据集用αk表示每个多数类别子数据集中样本实例的个数;定义Dβ为少数类别数据集,Dj是其中一个少数类别数据集,包含nj,j=1,2,...,l个属于类别y=j,j=1,...,l的样本实例,即Dβ={∪Dj},j=1,2,...,l,其中,β表示所有少数类别数据集中样本的个数,有
即由此得到α>>β;
步骤2、边界因子计算,定义每个数据集Sk包含了来自相应多数类别子数据集和少数类别数据集Dβ的样本实例,表示为
经过特征提取步骤后数据集Sk中每个样本实例x,x∈Rm,可由m维特征F={f1,...,ft},t=m表示,其中f表示每一维特征,每个样本边界因子是基于其属于所有类别的不确定性计算得到的,不确定性主要通过集合Sk中的每个样本实例x到给定类别Cj的距离d(x,Cj)来确定的,距离的计算定义如下:
用来计算在第t维特征空间中,样本实例x到给定类别Cj的距离分量,由于生物触发词识别数据集是文本,因此,定义为文本向量到类别Cj质心的距离,所述质心为词频TF(ft|Cj)的均值:
式中,在d(x,Cj)基础上,每个样本实例x对于类别Cj的隶属度μj(x)定义如下:
并且
样本实例x的边界因子BoundF(x)定义如下:
步骤3、样本欠抽样,将计算好的BoundF(x)值进行排序,将拥有最大的α'k个BoundF(x)值的样本被作为边界样本实例抽取组成一个边界集抽样个数α'k=p×β,p作为PUS算法的一个待调节参数;
步骤4、边界集归并,将步骤2和3中的通过并行欠采样产生的所有边界集,合并后得到一个新的多数类别数据集D'α,和所有的少数类别集合在一起,得到新的训练数据集合D'=D'α∪Dβ;
步骤5、修剪,对训练数据集合D'重复欠采样步骤2和步骤3得到最终的训练数据集D”,使训练数据集D”包含α”个最大BoundF(x)值的样本,达到多数类别样本数和少数类别样本数平衡,即α”=β。
2.根据权利要求1所述的大数据集中生物事件触发词的识别方法,其特征在于:所述步骤1中的每个均具有相同的规模。
3.根据权利要求1所述的大数据集中生物事件触发词的识别方法,其特征在于:在所述步骤3中,若数据集包含噪声数据,则在对边界样本实例抽样之前将噪声数据删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈一飞;刘峰,未经陈一飞;刘峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710148320.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的结构化信息抽取方法
- 下一篇:医疗同义词的确定方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置