[发明专利]一种信息处理的方法在审

申请号：	201711463021.7	申请日：	2017-12-28
公开（公告）号：	CN108228553A	公开（公告）日：	2018-06-29
发明（设计）人：	朱光强;龙汉;王海生	申请（专利权）人：	深圳市巨鼎医疗设备有限公司
主分类号：	G06F17/25	分类号：	G06F17/25;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标准文字信息处理空格时间格式文本内容文档文件相邻字符字符类型结构化零配置能力强行输出适配字段去除版面文本分行分组配置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及文本内容提取技术领域，尤其涉及一种信息处理的方法，包括以下步骤：提取文档文件中所有文字的坐标，并根据每个文字的坐标对所有文字进行分行；从每行的文字中去除时间格式内容、空格和冒号得到每行的标准文字；计算每行的标准文字中相邻字符之间的间隙，并根据间隙对每行的标准文字进行分组；根据每行的标准文字中每个字符类型，对每行的标准文字进行切分处理以得到行切分结果；汇总每行输出的行切分结果。本发明的一种信息处理的方法，免去字段值切分时的繁琐配置，实现零配置切分，适配各种文本版面，使得结构化提取过程变得简单、适应能力强。

技术领域

本发明涉及文本内容提取技术领域，尤其涉及一种信息处理的方法。

背景技术

医学电子报告多以PDF，XPS格式文件为主，包含丰富的患者个人和病历数据，XPS文档与PDF文档类似，是一种只读文档格式，其采用结构化数据形式保存数据，在使用计算机读取文档内容时，需要进行相应的解析和提取处理。目前对文档进行结构化提取的过程中，大部分是采用模板匹配或正则表达式提取的方式对多个字段值进行切分，这两种方式都需要根据每一种文档的文字内容及布局进行单独的模板或正则表达式的配置，步骤繁琐，适配能力差。

发明内容

针对现有技术中存在的问题，本发明提供一种针对PDF，XPS格式文件对其文本内容分块的方法。

一种信息处理的方法，包括以下步骤：

提取文档文件中所有文字的坐标，并根据每个文字的坐标对所有文字进行分行；

从每行的文字中去除时间格式内容、空格和冒号得到每行的标准文字；

计算每行的标准文字中相邻字符之间的间隙，并根据间隙对每行的标准文字进行分组；

根据每行的标准文字中每个字符类型，对每行的标准文字进行切分处理以得到行切分结果；

汇总每行输出的行切分结果。

进一步的，切分处理具体为：

当标准文字包括中文和英文时，根据字符之间的间隙以及字符自身宽度对中文词语与英文单词进行分割。

进一步的，切分处理具体为：

当标准文字中相邻两个字符间隙是否在第一预设间隙和第二预设间隙时，判断相邻两个字符的重叠范围是否超过预设字宽；