[发明专利]生命科学文档的自动分类和解释在审
申请号: | 202010129780.5 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111639178A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 加里·肖特;巴里·阿伦斯 | 申请(专利权)人: | IQVIA公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都超凡明远知识产权代理有限公司 51258 | 代理人: | 王晖;陈剑 |
地址: | 美国康*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生命科学 文档 自动 分类 解释 | ||
1.一种用于对生命科学文档进行分类和解释的计算机实现的方法,所述方法包括:
接收所述生命科学文档的数字化表示,所述数字化表示包括文档元素,所述文档元素包括文本或图像中的一者或更多者;
对所述生命科学文档的所述数字化表示进行文本分析,所述文本分析包括识别文本中的原始词语;
对所述生命科学文档的所述数字化表示进行构造分析,所述构造分析包括识别文档上下文,所述文档上下文描述文档元素的特征以及文档元素在所述生命科学文档的页面上的相对空间位置;
对所述生命科学文档的所述数字化表示进行图像分析,所述图像分析包括对图像进行识别并对所识别的所述图像进行处理以提取文档元素的附加特征;以及
集合地利用所述文本分析、所述构造分析和所述图像分析的结果,以将所述生命科学文档分类为一个或更多个预定义的类别。
2.根据权利要求1所述的计算机实现的方法,其中,所述相对空间位置包括页眉、页脚、说明文字、脚注或标题中的一者。
3.根据权利要求1所述的计算机实现的方法,其中,对上下文的识别还包括识别所述生命科学文档的格式。
4.根据权利要求1所述的计算机实现的方法,其中,所述图像分析还包括识别徽标、图形、图解、图解文本或说明文字。
5.根据权利要求4所述的计算机实现的方法,其中,所述图像分析还包括对所识别的所述徽标、所述图形、所述图解、所述图解文本或所述说明文字中的一者或更多者进行解释。
6.根据权利要求1所述的计算机实现的方法,其中,所述文档元素的特征包括文本的字体、大小或格式中的一者。
7.根据权利要求1所述的计算机实现的方法,其中,所述构造分析还包括跟踪邻近的各个文档元素的文本。
8.根据权利要求1所述的计算机实现的方法,其中,所述图像分析还包括图像到文本的转换,以从图像提取数字化形式的文本。
9.根据权利要求1所述的计算机实现的方法,还包括将所述生命科学文档中的内容分类为一个或更多个预定义的类别。
10.根据权利要求1所述的计算机实现的方法,其中,所述文本分析包括跟踪所述生命科学文档中的文本的序列。
11.根据权利要求1所述的计算机实现的方法,其中,所述文本分析、所述构造分析或所述图像分析中的一者或更多者生成与所述生命科学文档相关联的元数据,其中,所述元数据至少部分地用于执行所述分类。
12.根据权利要求1所述的计算机实现的方法,其中,所述一个或更多个预定义的类别包括由药物信息协会定义的类别。
13.根据权利要求1所述的计算机实现的方法,还包括用标签标记所述生命科学文档,所述标签包括分类标签和事件标签。
14.根据权利要求13所述的计算机实现的方法,其中,所述事件标签被配置成用于作为触发器或警报来操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于IQVIA公司,未经IQVIA公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010129780.5/1.html,转载请声明来源钻瓜专利网。