[发明专利]一种群智能寻优的肺癌癌细胞检测仪在审
申请号: | 201810458506.5 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108715804A | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 刘兴高;高信腾;孙元萌 | 申请(专利权)人: | 浙江大学 |
主分类号: | C12M1/34 | 分类号: | C12M1/34 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 寻优 种群 癌细胞检测 基因微阵列 数据预处理 智能 肺癌 排序 分类器参数 种群多样性 参数寻优 分数计算 模型构建 排序模块 输出结果 准则函数 最优参数 基因 扰动 分类器 贡献度 归一化 适应度 再利用 读入 算法 噪声 删除 优化 搜寻 输出 检测 改进 统计 | ||
本发明公开了一种群智能寻优的肺癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出组成。系统首先将输入的基因微阵列数据预处理,删除噪声以及归一化,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因重要性进行排序。改进的优化方法在原始的智能寻优算法下加入了适应度检测与种群扰动,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出结果。系统具有很好的去相关性,精度高。
技术领域
本发明涉及基因微阵列数据应用技术领域,具体地,涉及一种群智能寻优的肺癌癌细胞检测仪。
背景技术
基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。然而,怎样去研究如此众多基因在生命过程中所担负的功能就成了全世界生命科学工作者共同的课题。为此,建立新型杂交和测序方法以对大量的遗传信息进行高效、快速的检测、分析就显得格外重要了。肺癌是发病率和死亡率增长最快,对人群健康和生命威胁最大的恶性肿瘤之一。近50年来许多国家都报道肺癌的发病率和死亡率均明显增高,男性肺癌发病率和死亡率均占所有恶性肿瘤的第一位,女性发病率占第二位,死亡率占第二位。而肺癌的病因至今尚不完全明确。如何利用基因微阵列技术对肺癌进行快速高效准确建模,是当下一项十分具有意义的科研热点。
发明内容
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本发明的目的在于提供一种群智能寻优的肺癌癌细胞检测仪。
本发明解决其技术问题所采用的技术方案是:一种群智能寻优的肺癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:
基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:
其中每一行xi代表一个样本所有基因的表达值,对应的每一列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、总共n个。
数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:
其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:
其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:
定义w为分类绝策面的法向量、w*为最优法向量、α为法向量对应的系数、α*最优法向量对应的系数。观察上式,可以得到:各个特征的重要程度根据该特征对于这个代价函数的贡献大小来决定,即每个特征的贡献值为:其中,δ表示贡献度。
在使用非线性核作为核函数的时候,一般可以如下近似计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810458506.5/2.html,转载请声明来源钻瓜专利网。