[发明专利]基于LightGBM集成多个BERT模型的随机对照试验识别方法在审
申请号: | 202110363597.6 | 申请日: | 2021-04-02 |
公开(公告)号: | CN112836772A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 孙鑫;秦璇;李玲;刘佳利;王雨宁;刘艳梅;齐亚娜;邹康;邓可;马玉;刘梅 | 申请(专利权)人: | 四川大学华西医院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/30 |
代理公司: | 成都高远知识产权代理事务所(普通合伙) 51222 | 代理人: | 李安霞;谢一平 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lightgbm 集成 bert 模型 随机 对照 试验 识别 方法 | ||
本发明公开基于LightGBM集成多个BERT模型的随机对照试验识别方法,包括以下步骤:步骤s1:将预先准备的初始RCT数据分割为训练集、开发集以及测试集,所述初始RCT数据包括文本以及初始分类标签;步骤s2:将训练集、开发集以及测试集中的文本均分别转化为位置向量、文本向量以及字向量;步骤s3:训练模型;步骤s4:调整模型的超参数;步骤s5:使用训练好的模型对训练集和开发集文本进行分类;步骤s6:训练LightGBM模型;步骤s7:得到最终分类结果。本发明通过开发一个集成学习算法LightGBM集成4个不同模型,在Cochrane提供的RCT数据上训练,自动筛选出RCT类的题目和摘要。
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及基于LightGBM集成多个BERT模型的随机对照试验识别方法。
背景技术
随机对照试验(RCT)一般被认为是评价药物安全性和有效性的金标准。近年来,如何利用真实世界证据评价药物的有效性和安全性,成为国内外药物研发和监管决策中日益关注的热点问题。
对于单一RCT,实验样本有限,常使用Meta分析来综合收集对某一疾病各种疗法的小样本、单个临床试验RCT的结果,对其进行系统评价和统计分析,将尽可能真实的科学结论及时提供给社会和临床医师,以促进推广真正有效的治疗手段,摈弃尚无依据的无效的甚至是有害的方法。
文献作为重要的科研展示分享形式,包含着众多科研信息。通常研究者通过文献检索的方式收集RCT相关文献。
然而,在进行系统评价的文献检索过程中,由于每年文献的爆炸性增长和检索策略特异性的缺乏,同时检索到的引文数量非常大,因此人工对检索结果进行RCT相关文献的筛选,耗时耗力。
目前,一些系统评价软件工具包括RCT分类功能,包括GAPScreener、Austrackr和Rayyan,它们是半自动参考过滤和选择软件,使用支持向量机(SVM)对文档进行分类。SVM是一种成功的机器学习模型,广泛应用于这些文本挖掘工具中,在21世纪的第一个十年中对文本进行分类。但SVM在很大程度上依赖于人为设置的样本特征,这可能是不稳定和劳动密集型的。
随着机器学习技术和计算机硬件的发展,基于网络的机器学习方法由于其在许多问题上的良好性能而受到人们的欢迎,特别是在图像识别和自然语言处理(NLP)方面。双向编码器表示从变压器(BERT),为一个预先训练的模型,由谷歌公司提出,在11个NLP任务在2018年10月取得了最好的模型结果。由于深度网络及其预训练过程,BERT模型可以在不同的NLP任务中取得更好的效果。在训练前的过程中,模型在大量的训练前数据集上学习语言的背景特征。这个过程机器学习经过大量的基础学习,特定的任务学习效果会更好。因此,我们希望使用与医学相关的不同的预训练BERT模型作为RCT分类任务的基本分类器。
在过去的两年里,LightGBM作为一种集成不同模型效应的集成方法,在机器学习任务中得到了广泛的应用。除了节省训练预测时间外,它的性能优于所有现有的Boosting算法。
目前在文本分类领域表现良好的模型是监督学习。文本分类的监督学习模型需要训练过程。在训练过程中,该模型适合于学习引文与分类标签之间的关系,在引文中使用已知的过滤标签来预测没有已知分类标签的引文。因此,筛选引文的准确性直接影响模型的分类效果。Cochrane是系统评价领域的一个公认项目,来自158个国家的全球卫生科学研究人员参与了对文本的分类。受过研究方法的训练的配对的评审员,独立筛选标题/摘要。评审员通过讨论或必要时与第三位审查员协商来解决分歧。
发明内容
本发明旨在提供一种基于LightGBM集成多个BERT模型的随机对照试验识别方法,用于自动筛选出RCT类的题目和摘要。
为达到上述目的,本发明是采用以下技术方案实现的:
基于LightGBM集成多个BERT模型的随机对照试验识别方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学华西医院,未经四川大学华西医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110363597.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于甲状旁腺识别的双激光激发系统
- 下一篇:一种压力容器快速漏气检测装置