[发明专利]一种参数最优的肺癌癌细胞检测仪在审
申请号: | 201810458000.4 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108664763A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 刘兴高;高信腾;孙元萌 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 癌细胞检测 基因微阵列 数据预处理 肺癌 排序 模型输出模块 分类器参数 种群多样性 参数寻优 分数计算 模型构建 排序模块 输出结果 在线检测 准则函数 最优参数 基因 分类器 贡献度 适应度 再利用 扰动 读入 寻优 算法 优化 种群 搜寻 智能 检测 改进 统计 | ||
1.一种参数最优的肺癌癌细胞检测仪,其特征在于:该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。
2.根据权利要求1所述的参数最优的肺癌癌细胞检测仪,其特征在于:所述基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:
其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。
3.根据权利要求1所述的参数最优的肺癌癌细胞检测仪,其特征在于:所述数据预处理及特征排序模块对基因微阵列读入模块读入的原始微阵列数据进行归一化以及特征排序。其中归一化操作为:
其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:
其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:
定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。
在使用非线性核作为核函数的时候,一般可以如下近似计算:
其中,合理假设某个特征消去之后α值不变,H(-i)表示该特征消去之后的H矩阵值。而在使用该假设时,得到的结果与线性核的结果相差不大。利用该式即可循环计算特征贡献度进行基因重要性排序。由此可得到基因检测的训练集合其中xi代表n×1的输入特征向量,ti代表m×1的目标向量。给定一个激活函数g(x)以及隐含层的节点个数那么ELM基因检测系统为:
其中,ωi代表第i个隐含层节点和输入层之间的权重向量,bi代表第i个隐含层节点的偏置,βi代表第i个隐含层节点和输出层之间的权重向量,oj代表第j个输入数据的目标输出。另外,ωi·xj代表了ωi和xj的内积。
该网络的输出能够无限地接近于输入的N个样本,即:
可得:
上式可以表达为矩阵形式:Hβ=T
其中,H表示隐含层的输出矩阵,H的第i列分别表示隐含层的第i个节点对应于N个输入x1,x2,…,xN的输出值。单隐层前馈神经网络(SLFNs)的输入权值和隐含层的偏差在网络训练的过程中不需要调整,可以任意给定。基于上述理论,输出权重可以通过计算Hβ=T的最小二乘解求得:
可以利用线性方法快速求得方程的解,如式所示:
其中,代表H的Moore-Penrose广义逆矩阵,代表最小范数最小二乘解,它正好是最小二乘解中范数最小的解。相比很多已有的基因检测系统,极限学习机通过这种Moore-Penrose广义逆的求解能够以非常快的速度达到很好的训练效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810458000.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用