[发明专利]一种人运甲状腺素蛋白干扰物虚拟筛选方法有效
申请号: | 201610802117.0 | 申请日: | 2016-09-05 |
公开(公告)号: | CN106407665B | 公开(公告)日: | 2018-10-16 |
发明(设计)人: | 陈景文;杨先海;李雪花;傅志强 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;李宝元 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种人运甲状腺素蛋白干扰物的虚拟筛选方法,属于环境内分泌干扰物筛选方法领域。其虚拟筛选过程是首先基于十个基团将化学品进行分类,然后使用定量结构‑活性关系模型预测每类化学品对人运甲状腺素蛋白的干扰效应,进而根据预测的效应值判断化学品是否具有干扰人运甲状腺素蛋白转运甲状腺素的能力及干扰能力的强弱。本发明公布的筛选人运甲状腺素蛋白干扰物的流程简明合理,方法准确可靠、易于实现程序化,可适用于应用域内潜在人运甲状腺素蛋白干扰物的虚拟筛查及潜在干扰物优先级设定。 | ||
搜索关键词: | 一种 甲状腺素 蛋白 干扰 虚拟 筛选 方法 | ||
【主权项】:
1.一种人运甲状腺素蛋白干扰物虚拟筛选方法,其特征在于,步骤如下:(1)收集有机化学品数据收集108种有机化学品对hTTR干扰效应数据,该数据是通过放射性配体竞争结合方式获取,获取的条件:pH=8.0、放射性配体为125I标记的甲状腺素125I‑T4和hTTR蛋白浓度为30nM;其中,62种有机化学品具有可检测的干扰活性;有机化学品与125I‑T4竞争hTTR结合位点的能力使用半数竞争效应浓度IC50表示,IC50为将50%的125I‑T4从hTTR结合位点替换出来时所需要的有机化学品浓度;108种有机化学品包括卤代联苯及羟基卤代联苯类、羟基二噁英类、杀虫剂、卤代联苯醚及羟基卤代联苯醚类、卤代酚类、卤代双酚A类、多氟代及全氟代羧酸和磺酸类及卤代烷烃类;(2)选取关键基团、进行化学品分类根据氮原子个数nN、芳香碳原子个数nCar、酚羟基个数nArOH、苯甲酸基个数nArCOOH、羟基个数nROH、羧基个数nRCOOH、磺酸基个数nSO2OH、亚磺酸基个数nSOOH、苯环取代的卤素个数nArX和卤素个数nX对108种有机化学品进行分类,分类方法如下:第一步:在步骤(1)得到108种有机化学品对hTTR干扰效应数据中,首先,先判断nN是否为0,当nN=0时,需进一步判断;当nN≠0时,含氮原子的有机化学品被排除;第二步:当nN=0时,再判断nCar是否大于0,将有机化学品分为芳香类有机化学品和非芳香类有机化学品,当nCar>0时,有机化学品为芳香类有机化学品;当有机化学品nCar=0时,有机化学品为非芳香类有机化学品;第三步:对于芳香类有机化学品,再判断nArOH+nArCOOH是否大于0,筛选出含酚羟基或苯甲酸基的有机化学品;当有机化学品nArOH+nArCOOH>0时,此有机化学品为含酚羟基或苯甲酸基的有机化学品,为第一类有机化学品;当有机化学品nArOH+nArCOOH=0时,此有机化学品进一步判断;当nArOH+nArCOOH=0的芳香类有机化学品,再判断nROH+nRCOOH+nSO2OH+nSOOH是否大于0,筛选出支链含羟基、羧基、磺酸基或亚磺酸基的芳香类有机化学品;当有机化学品nROH+nRCOOH+nSO2OH+nSOOH>0时,此有机化学品为支链含羟基或羧基或磺酸基或亚磺酸基的芳香类有机化学品,为第二类有机化学品;当有机化学品nROH+nRCOOH+nSO2OH+nSOOH=0时,此有机化学品进行进一步判断;对nROH+nRCOOH+nSO2OH+nSOOH=0的芳香类有机化学品,再判断nArX是否大于0,筛选出卤代芳烃;当有机化学品nArX>0时,此有机化学品为卤代芳烃,为第三类有机化学品;当有机化学品nArX=0时,此有机化学品被排除;第四步:对于烷烃类有机化学品,判断nROH+nRCOOH+nSO2OH+nSOOH是否大于0,筛选出含羟基或羧基或磺酸基或亚磺酸基的有机化学品;当有机化学品nROH+nRCOOH+nSO2OH+nSOOH>0时,此有机化学品为含羟基或羧基或磺酸基或亚磺酸基的有机化学品,为第四类有机化学品;当有机化学品nROH+nRCOOH+nSO2OH+nSOOH=0时,此有机化学品进行进一步判断;对nROH+nRCOOH+nSO2OH+nSOOH=0的烷烃类有机化学品,再判断nX是否大于0,筛选出卤代烷烃;当有机化学品nX>0时,此有机化学品为卤代烷烃,为第五类有机化学品;当有机化学品nX=0时,此有机化学品被排除;本方法适用有机化学品如下:①不含氮的有机化学品②芳香烃类化学品:以羟基或羧基或卤素为取代官能团;③烷烃类化学品:以羟基或羧基或磺酸基或亚磺酸基或卤素为取代官能团;(3)定量预测模型的构建及表征建模时用取对数的相对效应势RP表征TDCs与TH竞争hTTR结合位点的能力,RP定义为:其中:IC50(T4)和IC50(TDCs)分别代表甲状腺素T4和TDCs的半数竞争效应浓度nM;logRP值越大,表示有机化学品与TH竞争hTTR结合位点的能力越强;将无活性的有机化学品干扰活性设定为625000nM,TH与hTTR作用的IC50(T4)值为61nM,得出无活性的化学品相对效应势logRP=‑4.011;①计算分子描述符首先,优化有机化学品分子结构,基于优化的有机化学品分子结构,计算每种有机化学品的4885个Dragon描述符;描述符按照以下原则进行预处理:(1)去除有缺失值的描述符;(2)两个描述符相关性大于0.99的描述符,去除标准偏差大的描述符;②根据步骤(2)的分类结果,构建了芳香类和烷烃类有机有机化学品对hTTR干扰效应的预测模型:其中,芳香类有机化学品预测模型包括75个有机化学品,训练集和验证集分别为61个和14个;烷烃类有机化学品预测模型包括33个有机化学品,训练集和验证集分别为24个和9个;采用逐步多元线性回归方法构建芳香类和烷烃类有机有机化学品对hTTR干扰效应的预测模型;③预测模型表达式:芳香类有机化学品预测模型表达式为:logRP=‑3.181+2.515nArOH‑8.990×10‑1CIC3+3.463Eig15_EA(dm)+2.723×10‑1H7m+6.901×10‑1RTs+ (2)其中,nArOH指分子中酚羟基的个数,CIC3是分子信息指数,Eig15_EA(dm)是偶极矩加权的特征值,H7m是分子质量加权的H自相关指数,RTs+是I‑state加权的R指数;烷烃类有机化学品预测模型表达式为:logRP=‑4.279+3.891×10‑2H2s–1.961×10‑1Mor07m +5.476×10R8v+ (3)其中,H2s是I‑state加权的H自相关指数,Mor07m是分子质量加权的3D‑MoRSE描述符,R8v+指分子范德华体积加权的R自相关指数;④采用实验值与预测值之间的相关系数平方R2、去一法交叉验证系数Q2训练集、外部验证集的相关系数Q2验证集和均方根误差RMSE评价模型的拟合优度、稳健性和预测能力;芳香类有机化学品预测模型的表征结果:训练集的实验值与预测值之间的相关系数平方R2训练集=0.899,训练集的均方根误差RMSE训练集=0.662,Q2训练集=0.863,表明模型具有较好的拟合优度和稳健性;外部验证集的相关系数Q2验证集=0.874,R2验证集=0.879,外部验证集的均方根误差RMSE验证集=0.734,表明模型具有较好的预测能力;烷烃类有机化学品预测模型的表征结果:R2训练集=0.961,RMSE训练集=0.217,Q2训练集=0.940,表明模型具有较好的拟合优度和稳健性;Q2验证集=0.932,R2验证集=0.950,RMSE验证集=0.264,表明模型具有较好的预测能力;⑤使用Williams图表征模型的应用域:Williams图由标准残差和杠杆值表示,芳香类有机化学品预测模型的应用域为:杠杆值小于0.3;烷烃类有机化学品预测模型的应用域为:杠杆值小于0.5;(4)人运甲状腺素蛋白干扰物虚拟筛选方法1)根据有机化学品分子结构基团判断未知有机化学品是否在筛选方法的应用域范围内,若在,则基于上述十个基团将未知有机化学品进行分类;若不在,则不用此方法进行预测;2)根据未知有机化学品分类结果,选择合适的预测模型;基于预测模型的要求计算未知有机化学品的分子描述符,并依据分子描述符计算未知有机化学品的杠杆值,比较未知有机化学品的杠杆值是否在模型的应用域范围内;若未知有机化学品在模型的应用域范围内,则依据选择的模型计算未知有机化学品对hTTR的logRP值;若未知有机化学品不在模型的应用域范围内,则不用本模型进行预测;3)根据预测的logRP值判断未知有机化学品是否具有干扰hTTR转运TH的能力及干扰能力的强弱;干扰能力的判断标准如下:高干扰活性:logRP≥‑1.00;中等干扰活性:‑2.00≤logRP<‑1.00;低干扰活性:‑4.011≤logRP<‑2.00;无干扰活性:logRP<‑4.011。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610802117.0/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用