[发明专利]一种大数据集中生物事件触发词的识别方法有效
申请号: | 201710148320.5 | 申请日: | 2017-03-14 |
公开(公告)号: | CN106933805B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈一飞;刘峰;韩冰青 | 申请(专利权)人: | 陈一飞;刘峰 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮 |
地址: | 210000 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及生物事件触发词的识别方法技术领域,具体涉及一种大数据集中生物事件触发词的识别方法,为并行欠采样方法(PUS),包括数据分割、边界因子计算、样本欠抽样、边界集归并和最后修剪步骤,可以用于处理类别之间存在显著的分布偏差的大训练数据集,通过并行减少属于多数类别的样本实例来达到目的。该方法对数据的选择是基于边界因子的计算,其衡量每个样本实例的所携带的信息对于分类的重要性。上述技术方案提供的大数据集中生物事件触发词的识别方法,能同时解决数据量大及类别间样本分布不平衡问题,以达到更好的生物事件触发词的识别效果。 | ||
搜索关键词: | 一种 数据 集中 生物 事件 触发 识别 方法 | ||
【主权项】:
一种大数据集中生物事件触发词的识别方法,为并行欠采样方法,其特征在于包括以下步骤:步骤1、数据分割,定义数据集D={(x1,y1),...,(xn,yn)}为训练数据集,其中xi∈Rm为样本实例,且yi∈{0,1,...,l}为样本实例的所属类别,共有1+l个类别标签;定义Dα为多数类别数据集,其中包含有n0个属于类别y=0的个样本实例,使α=n0;将多数类别数据集Dα随机分割为K个互不相交的多数类别子数据集用αk表示每个多数类别子数据集中样本实例的个数;定义Dβ为少数类别数据集,即Dβ={∪Dj},j=1,2,...,l,其中,β表示所有少数类别数据集中样本的个数,有由此得到α>>β;步骤2、边界因子计算,定义每个数据集Sk包含了来自相应多数类别子数据集和少数类别数据集Dβ的样本实例,表示为经过特征提取步骤后,Sk由m维特征F={ft},t=1,2,...,m表示,每个样本边界因子是基于其属于所有类别的不确定性计算得到的,不确定性主要通过集合Sk中的每个样本实例x到给定类别Cj的距离d(x,Cj)来确定的,距离的计算定义如下:d(x,Cj)=Σt=1mdis2(xft,Cft)---(1)]]>用来计算在第t维特征空间中,样本实例x到给定类别Cj的距离分量,由于生物触发词识别数据集是文本,因此,定义为文本向量到类别Cj质心的距离,所述质心为词频TF(ft|Cj)的均值:dis(xft,Cft)=|xft-TF(ft|Cj)nj|---(2)]]>式中,在在d(x,Cj)基础上,每个样本实例x对于类别Cj的隶属度μj(x)定义如下:并且样本实例x的边界因子BoundF(x)定义如下:BoundF(x)=(-Σj=0lμj(x)log(μj(x)))×(Σj=0lμj(x)d(x,Cj))---(4)]]>步骤3、样本欠抽样,将计算好的BoundF(x)值进行排序,将拥有最大的α'k个BoundF(x)值的样本被作为边界样本实例抽取组成一个边界集抽样个数α'k=p×β,p作为PUS算法的一个待调节参数;步骤4、边界集归并,将步骤2和3中的通过并行欠采样产生的所有边界集,合并后得到一个新的多数类别数据集D'α,和所有的少数类别集合在一起,得到新的训练数据集合D'=D'α∪Dβ;步骤5、修剪,对训练数据集合D'重复欠采样步骤2和步骤3得到最终的训练数据集D”,使训练数据集D”包含α”个最大BoundF(x)值的样本,达到多数类别样本数和少数类别样本数平衡,即α”=β。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈一飞;刘峰,未经陈一飞;刘峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710148320.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的结构化信息抽取方法
- 下一篇:医疗同义词的确定方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置