[发明专利]基于人工智能的文本处理方法、装置、设备、介质在审
申请号: | 202010070649.6 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111242083A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 苏晨;李斌;洪科元 | 申请(专利权)人: | 腾讯云计算(北京)有限责任公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06F40/169;G06F40/279;G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟;孙宛晨 |
地址: | 100086 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 处理 方法 装置 设备 介质 | ||
公开了一种基于人工智能的文本处理方法、装置、设备、介质。所述文本处理方法包括:对待处理图像进行字符识别以确定包括至少两行文本的待处理文本;针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别;根据所述至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。
技术领域
本申请涉及文本处理领域,更具体地涉及一种基于人工智能的文本处理方法、装置、设备、介质。
背景技术
在一些应用场景中,可能无法直接得到数字化的文本内容,而需要从影像化的信息中提取文本信息的场景。例如,可以从医学检查报告这样的影像化信息中提取其中的有效信息,如检查结果。又例如,可以从宣传海报中提取其中的宣传对象和宣传内容等。由于从影像化的信息中识别的字符形成的文本可能包括无用的信息,因此,需要一种高效并准确地从根据影像化信息识别的字符中抽取有效信息的方法。
发明内容
根据本申请的一方面,提出了一种基于人工智能的文本处理方法,包括:对待处理图像进行字符识别以确定包括至少两行文本的待处理文本;针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别;根据所述至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。
在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:针对所述至少两行文本中每行文本,基于所述至少两行文本的上下文对该行文本中的每个字符进行标注,以得到该行文本的标注序列;以及基于该行文本的标注序列确定该行文本所属的文本类别。
在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:针对所述至少两行文本中的每行文本,对该行文本进行文本分类,以确定该行文本所属的文本类别。
在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别还包括:对所述至少两行文本中相邻两行文本进行文本分类,以得到指示所述相邻两行文本是否属于同一文本段的检测结果;基于检测结果确定所述至少两行文本中的待调整文本行;以及基于所述待调整文本行的相邻文本行所属的文本类别,调整所述待调整文本行所属的文本类别。
在一些实施例中,基于检测结果确定所述至少两行文本中的待调整文本行包括:当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段,并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时,将所述被检测的文本行确定为待调整文本行。
在一些实施例中,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括:根据所述文本类别对所述待处理文本中的至少两行文本进行组合,以确定对应于所述文本类别的文本段;输出对应于所述文本类别的文本段。
在一些实施例中,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括:对对应于所述文本类别的文本进行分句;在分句后的文本中查找包含预设关键词的文本句;基于所述预设关键词输出对应于所述文本类别的所述文本句。
在一些实施例中,所述待处理图像是医学检查报告,所述待处理文本包括针对医学图像的医学描述文本和医学结论文本,所述文本类别包括描述类别和结论类别,基于所述预设关键词输出对应于所述文本类别的所述文本句包括:针对预设的多个关键词中的每个关键词,分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。
在一些实施例中,对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括:对待处理图像进行光学字符识别,以确定所述待处理图像中的至少两个文本框;基于所述文本框的坐标和高度确定位于同一行的至少一个文本框;组合位于同一行的至少一个文本框中的字符,作为待处理文本中的一行文本。
在一些实施例中,所述文本类别包括描述类别和结论类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯云计算(北京)有限责任公司,未经腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010070649.6/2.html,转载请声明来源钻瓜专利网。