[发明专利]一种从社交媒体中自动发掘不良药物反应的方法在审
申请号: | 202110317630.1 | 申请日: | 2021-03-25 |
公开(公告)号: | CN113158073A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 韦嘉;叶翔赟 | 申请(专利权)人: | 上海基绪康生物科技有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G16H70/40;G16H50/70 |
代理公司: | 武汉智新达知识产权代理事务所(特殊普通合伙) 42272 | 代理人: | 李丹萍 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 媒体 自动 发掘 不良 药物 反应 方法 | ||
本发明涉及药物信息发掘应用技术领域,且公开了一种从社交媒体中自动发掘不良药物反应的方法。该从社交媒体中自动发掘不良药物反应的方法,使用一种半监督的机器学习框架,从自然语言文本中提取句法特征,以识别药物和与之正相关的不良反应,其关键贡献在于引入了一种几乎不需要手动注释的自动标签生成算法,因此该方法也具有更广的适应性。通过手动标记的测试集与其它可选方法的分类检测效果相比较,该方法在保证精确度的同时具有更好的稳定性,此外,该方法侧重于在中文信息中检索不良药物反应信息,既可以检测已知不良反应在特定人群中的发生频率又可以发掘未知的不良反应信息,从而在深度和广度上扩大对不良药物反应的认知。
技术领域
本发明涉及药物信息发掘应用技术领域,具体为一种从社交媒体中自动 发掘不良药物反应的方法。
背景技术
明确不良药物反应(ADR,Adverse Drug Reaction)是药物研发的一个 重点,但上市前的临床实验往往会受到受试者人数,研究时间和制药公司以 及患者经济压力等的限制,近年来的一些研究也试图用药物的化学结构、靶 点蛋白或者药物研发周期中的治疗指征等,对药物的不良反应进行预测,然 而,某些药物的新不良反应只有在上市后,在不同的人种中或伴有不同疾病 的人群中被广泛使用后,才会被认知,又或者某些不良反应要经过一段较长 时间的积累才会显现,而这个时间跨度甚至可能超出该药物的研发周期,为 避免事故的发生,药品监管部门和制药公司都不惜付出巨大努力和代价去进 行上市后的四期临床实验以计算机为基础在现有的数据资源中发掘不良药物 反应的研究,也成为对昂贵的四期临床实验的一种有效的补充。
近年来,越来越多的研究旨在从各种数据资源中发掘药物的不良反应, 随着数据资源的不同(可以是结构化也可以是非结构化的文本),使用的挖掘 方法也不同,结构化资源主要指卫生部门(比如FDA)收集的正式的不良事件 报告,这些报告由于严格遵守不良事件报告标准,因此相对易于处理,但是, 提交报告的程序相对复杂,而且大部分患者不了解自发报告系统,因此此类 报告的数量非常有限,而非结构化的数据资源包括生物医学文献,临床记录 或病历以及线上的健康讨论等,但对这些数据资源的处理存在较大的挑战,因为有用的信息被嵌在了自然语言里,被赋予了固有的模棱两可性和嘈杂性, 其中,生物医学文献还是相对较好挖掘的,因为药物和不良反应都会以各自 正规的名字被提及,但这些信息不会实时更新甚至有时还会产生偏差,用各 种文本挖掘的方法也能从临床记录和病历提取相应的不良药物反应信息,但 考虑到病人隐私以及访问限制等问题,这样的数据来源也是十分有限的,所 以,相对而言,线上的社交媒体,特别是一些健康论坛,能为药物的使用情 况提供最为全面和及时的信息,但同时想从这些信息中发掘不良药物反应, 会遇到很多挑战,主要包括大量口语的使用,拼写和语法错误等。
现有的从社交媒体中进行文本挖掘的方法可以归纳为如下几种:基于词 汇的方法、统计学方法、基于规则的方法、高级自然语言处理(NLP)方法以 及神经网络,之前大多数方法都侧重于扩充词汇库以求在文本中找到对应不 良反应相关描述,这些基于词汇库的方法,可能由于对不良反应描述的新的 网络用语不断出现,而无法识别词汇库中未包含的非常规不良反应,此外, 它们还会因为词语拼写错误而导致近似字符串匹配不佳,于是一些研究人员 开始另辟蹊径,他们利用统计学方法或者基于规则(或模式)的方法又或者借助支持向量机(SVM)和条件随机场(CRF)等高级自然语言处理方法,寻 求从社交媒体中发掘ADR的更佳方案,这些方法虽然都可以到达合理的准确 性,但它们的构建都需要监督训练,在机器学习过程中还要用到大量数据, 这些都是需要耗费大量人力操作的,此外,研究者们还尝试过用各种结构的 神经网络来检测社交媒体中的ADR,比如,卷积神经网络,递归神经网络以及 它们的组合等,甚至注意力机制和条件随机场有时也会被加入到神经网络结 构中以提高其系统性能,另外,即使之前已经有很多研究关于如何从英文的 网上论坛中发掘未知的不良反应,但对中文论坛发掘的研究却鲜有,故而提 出一种从中文社交媒体中自动发掘不良药物反应的方法,并且来解决上述其 他方案中遇到的问题。
发明内容
(一)解决的技术问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司,未经上海基绪康生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110317630.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可生化降解固体废弃物的处理方法
- 下一篇:一种大型抗风广告牌