[发明专利]一种大数据集中生物事件触发词的识别方法有效

专利信息
申请号: 201710148320.5 申请日: 2017-03-14
公开(公告)号: CN106933805B 公开(公告)日: 2020-04-28
发明(设计)人: 陈一飞;刘峰;韩冰青 申请(专利权)人: 陈一飞;刘峰
主分类号: G06F40/279 分类号: G06F40/279
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 林辉轮
地址: 210000 江苏省南京市雨*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及生物事件触发词的识别方法技术领域,具体涉及一种大数据集中生物事件触发词的识别方法,为并行欠采样方法(PUS),包括数据分割、边界因子计算、样本欠抽样、边界集归并和最后修剪步骤,可以用于处理类别之间存在显著的分布偏差的大训练数据集,通过并行减少属于多数类别的样本实例来达到目的。该方法对数据的选择是基于边界因子的计算,其衡量每个样本实例的所携带的信息对于分类的重要性。上述技术方案提供的大数据集中生物事件触发词的识别方法,能同时解决数据量大及类别间样本分布不平衡问题,以达到更好的生物事件触发词的识别效果。
搜索关键词: 一种 数据 集中 生物 事件 触发 识别 方法
【主权项】:
一种大数据集中生物事件触发词的识别方法,为并行欠采样方法,其特征在于包括以下步骤:步骤1、数据分割,定义数据集D={(x1,y1),...,(xn,yn)}为训练数据集,其中xi∈Rm为样本实例,且yi∈{0,1,...,l}为样本实例的所属类别,共有1+l个类别标签;定义Dα为多数类别数据集,其中包含有n0个属于类别y=0的个样本实例,使α=n0;将多数类别数据集Dα随机分割为K个互不相交的多数类别子数据集用αk表示每个多数类别子数据集中样本实例的个数;定义Dβ为少数类别数据集,即Dβ={∪Dj},j=1,2,...,l,其中,β表示所有少数类别数据集中样本的个数,有由此得到α>>β;步骤2、边界因子计算,定义每个数据集Sk包含了来自相应多数类别子数据集和少数类别数据集Dβ的样本实例,表示为经过特征提取步骤后,Sk由m维特征F={ft},t=1,2,...,m表示,每个样本边界因子是基于其属于所有类别的不确定性计算得到的,不确定性主要通过集合Sk中的每个样本实例x到给定类别Cj的距离d(x,Cj)来确定的,距离的计算定义如下:d(x,Cj)=Σt=1mdis2(xft,Cft)---(1)]]>用来计算在第t维特征空间中,样本实例x到给定类别Cj的距离分量,由于生物触发词识别数据集是文本,因此,定义为文本向量到类别Cj质心的距离,所述质心为词频TF(ft|Cj)的均值:dis(xft,Cft)=|xft-TF(ft|Cj)nj|---(2)]]>式中,在在d(x,Cj)基础上,每个样本实例x对于类别Cj的隶属度μj(x)定义如下:并且样本实例x的边界因子BoundF(x)定义如下:BoundF(x)=(-Σj=0lμj(x)log(μj(x)))×(Σj=0lμj(x)d(x,Cj))---(4)]]>步骤3、样本欠抽样,将计算好的BoundF(x)值进行排序,将拥有最大的α'k个BoundF(x)值的样本被作为边界样本实例抽取组成一个边界集抽样个数α'k=p×β,p作为PUS算法的一个待调节参数;步骤4、边界集归并,将步骤2和3中的通过并行欠采样产生的所有边界集,合并后得到一个新的多数类别数据集D'α,和所有的少数类别集合在一起,得到新的训练数据集合D'=D'α∪Dβ;步骤5、修剪,对训练数据集合D'重复欠采样步骤2和步骤3得到最终的训练数据集D”,使训练数据集D”包含α”个最大BoundF(x)值的样本,达到多数类别样本数和少数类别样本数平衡,即α”=β。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈一飞;刘峰,未经陈一飞;刘峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710148320.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top