[发明专利]生命科学文档的自动分类和解释在审
申请号: | 202010129780.5 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111639178A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 加里·肖特;巴里·阿伦斯 | 申请(专利权)人: | IQVIA公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都超凡明远知识产权代理有限公司 51258 | 代理人: | 王晖;陈剑 |
地址: | 美国康*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生命科学 文档 自动 分类 解释 | ||
一种用于自动分类和解释诸如支持临床试验的生命科学文档之类的文档的计算机实现的工具,所述工具被配置为执行原始文本分析、文档构造分析和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类的准确性。与传统的自动分类工具相比,分析的组合通过利用文本与图像元素之间的相对空间关系、识别元素的特征和格式以及从文档中提取附加的元数据而为分类提供了上下文。
技术领域
本发明涉及一种用于对生命科学文档进行分类和解释的计算机实现的方法及配置为用作计算机实现的自动分类和解释工具的计算设备;本发明还涉及非暂时性计算机可读存储介质。
背景技术
自动分类通常用于有效地管理文档中的文本、图像和非结构化信息。自动分类也称为归类、聚类或文本分类,通常使文档能够基于一组预定义的种类或类别进行划分和组织,以快速且轻松地检索信息。
发明内容
用于自动分类和解释文档(诸如支持临床试验的生命科学文档)的计算机实现的工具被配置为执行文本分析、文档构造分析和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类准确性。与传统的自动分类工具相比,分析的组合通过利用文本与图像元素之间的空间关系、识别元素的特征和格式以及从文档中提取附加的元数据而为分类提供了上下文。
文本分析识别原始文本及其在文档中的大体位置。在某些实现中,可以选择性地跟踪文本序列。通过识别相关的上下文,诸如空间构造信息(例如,图像在页面上的位置;页眉、页脚和标题中的文本的位置;表格中的行和列的使用等)和格式(例如,加粗、倾斜、字体、文本大小等),文档构造分析为自动分类和解释工具提供了对文档的附加的理解。文档构造分析还可以通过跟踪与任一侧的文档元素相邻的文本来维持文档元素之间的连接。图像分析针对图形内容,诸如徽标、图解、图表和表格、说明文字等,以提取附加的上下文,以进一步加深对文档的基于机器的理解。
尽管可以在一些有限的分类实现中单独使用文本分析来获得令人满意的结果,但是通常不将构造分析和图像分析配置为针对文档分类的单独操作。然而,这三种分析的组合可通过协同操作提供改进的分类准确性,以帮助消除文档类别之间的模糊,在某些情况下,文档类别可能很多且具有细微的区别。分析的组合通过使用已识别的相关上下文提供附加的含义来区分文档类别。这使得原本模糊的文档文本可以有效地用于分类目的。
在各种例示性示例中,自动分类和解释工具被配置为将机器学习应用于由历史分类文档训练的人工智能(AI)引擎。AI引擎可以由工具访问,或者全部或部分合并到该工具中,并用于整体或部分地实现组合的文本分析、文档构造分析和图像分析。人类操作员可以通过自动分类和解释工具上显示的用户界面(UI)对分析算法进行调整。这些调整可用于改善自动文档的分类和解释,并且可用作机器学习输入,以总体上改善分类和解释工具的性能。
支持自动分类和解释工具的计算设备可以包含图像捕获设备,诸如照相机或扫描仪、或者被配置为与用于对生命科学文档进行数字化的离散图像捕获设备进行交互操作。该工具可以在现场进行操作,以应用文本分析、文档构造分析和图像分析,以向人类操作员提供针对所捕获的文档的实时分类反馈。在一些实现方式中,实时分类反馈可以包括针对所捕获的文档的建议分类以及相关联的元数据。操作员可以审查建议的文档分类和元数据,并通过UI提供批准或更正。可以将更正用作机器学习输入,以提高自动分类和解释工具的准确性。
所述计算机实现的自动分类和解释工具通过提供提高的分类准确性来提供对其所执行的计算设备的基础操作的改进。更具体地,组合使用原始文本分析、文档构造分析和图像分析,通过提高机器的知识深度以实现有效利用处理周期、内存需求和网络带宽来产生更准确的分类,从而减少对执行手动重新分类或丢弃不正确的分类结果的需求。自动分类和解释工具还可以提高计算设备上的人机界面的效率,因为该工具可以更准确地对生命科学文档进行分类,这提高了随后计算机辅助文档搜索和检索的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于IQVIA公司,未经IQVIA公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010129780.5/2.html,转载请声明来源钻瓜专利网。