[发明专利]一种参数最优的结肠癌癌细胞检测仪在审
申请号: | 201810458525.8 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108664764A | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 刘兴高;高信腾;孙元萌 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F19/20 | 分类号: | G06F19/20;G06N3/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 癌细胞检测 基因微阵列 数据预处理 结肠癌 排序 模型输出模块 分类器参数 种群多样性 参数寻优 分数计算 模型构建 排序模块 输出结果 准则函数 最优参数 基因 分类器 贡献度 适应度 再利用 扰动 读入 寻优 算法 优化 种群 搜寻 智能 检测 改进 统计 | ||
本发明公开了一种参数最优的结肠癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成。系统首先将输入的基因微阵列数据预处理,然后对剩余的各个基因进行重要性排序,通过统计分数计算相关性,再利用分类器准则函数计算贡献度,将所有基因的重要性进行排序。改进的优化方法在原始的智能寻优算法下加入了适应度检测与种群扰动,能够防止种群多样性散失以及优化过程陷入局部最优。然后将搜寻到的最优参数作为分类器参数完成模型构建并输出结果。系统具有很好的去相关性,精度高。
技术领域
本发明涉及基因微阵列数据应用技术领域,具体地,涉及一种参数最优的结肠癌癌细胞检测仪。
背景技术
基因芯片(gene chip)是目前生物芯片家族中最完善、应用最广泛的芯片,将许多特定的寡聚核苷酸或DNA片段(称为探针)固定在芯片的每个预先设置的区域内,将待测样本标记后同芯片进行杂交,利用碱基互补配对原理进行杂交,通过检测杂交信号并进行计算机分析,从而检测对应片段是否存在、存在量的多少,以用于基因的功能研究和基因组研究、疾病的临床检测等众多方面。其中最成功的典型基因芯片是在介质表面有序地点阵排列DNA,因此又叫DNA微阵列(DNA microarray)。据世界流行病学调查,发现结肠癌在北美、西欧、澳大利亚、新西兰等地的发病率最高,居内脏种瘤前二位,但在亚、非、拉美等地发病率则很低。中国的发病率与死亡率低于胃癌,食管癌、肺癌等常见恶性肿瘤。中国和日本人的大肠癌发病率明显低于美国,但移民到美国的第一代即可见到大肠癌发病率上升,第二代基本接近美国人的发病率。利用DNA微阵列数据,如何有效地发现结肠癌的数据特征,找出致病基因,针对治疗,是当下的一个研究热点。而由于DNA微阵列数据制备困难,而人类基因数目相对而言过于庞大,这样的数据困境对于科研人员来说,是首先需要应对的一大困难。
发明内容
为了克服目前难以搜寻基因微阵列数据最优特征子集以及分类最佳参数的不足,本发明的目的在于提供一种参数智能寻优的结肠癌模型。
本发明解决其技术问题所采用的技术方案是:一种参数最优的结肠癌癌细胞检测仪,该系统由基因微阵列读入模块、数据预处理及特征排序模块、参数寻优模块、模型输出模块组成;其中:
基因微阵列读入模块读入的是所有基因微阵列的类别标签Y=[y1,y2,...,ym],其中yi=k,k∈(-1,1),以及所有样本的基因微阵列表达值:
其中每行xi代表一个样本所有基因的表达值,每列xj代表一个基因在所有样本中的表达值,下标i表示第i个样本、总共m个,下标j表示第j个基因、共n个。
数据预处理及特征排序模块是对读入的原始微阵列数据进行归一化以及特征排序的处理过程。其中归一化操作为:
其中,Min、Max分别为样本基因表达值的最小值、最大值。而特征排序选择使用每个基因对分类准确度的贡献度打分来实现,通过定义一个贡献度函数:
其中,α=[α1,...,αn],Hij=yiyjK(xi,xj),α为法向量对应的系数、H为中间矩阵,J为代价函数、I为单位矩阵、K为核函数、y为标签值、x为样本特征值,上标T表示矩阵的转置、下标i、j分别表示第i个样本和第j个基因。事实上,该式代表分类边界大小的平方值,则有:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810458525.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用