[发明专利]文本的标准化处理方法、装置、电子设备及计算机介质在审

申请号：	202010773099.4	申请日：	2020-08-04
公开（公告）号：	CN111881680A	公开（公告）日：	2020-11-03
发明（设计）人：	柯昆	申请（专利权）人：	医渡云（北京）技术有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/247;G06F40/232;G06F16/35
代理公司：	北京律智知识产权代理有限公司 11438	代理人：	王辉;阚梓瑄
地址：	100191 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本标准化处理方法装置电子设备计算机介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质，属于数据处理技术领域。该方法包括：获取待处理的原始文本，并对原始文本进行拆分，得到原始文本中的各个待识别文本成分；获取通过标准文本成分集合预先训练的文本成分识别模型，并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分；对未识别文本成分进行标准化校正；通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分；根据第一可识别文本成分和第二可识别文本成分得到原始文本的标准化文本。本公开通过将不同的原始文本归一化为统一格式和写法的标准化文本，可以提高文本数据统计和处理的效率。

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质。

背景技术

随着新型冠状病毒肺炎疫情在全球的爆发，对于密切接触者的追踪在控制疫情扩散的方面尤为重要，而病人的地理位置信息在追踪其密切接触者的时候则是一项关键数据。

然而，这些收集到的地址文本数据通常不够规范，没有一个统一的格式和写法，很难进行进一步的统计与管理。

鉴于此，本领域亟需一种能够将不同写法的地址文本转换为统一标准化格式的文本的标准化处理方法。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质，进而至少在一定程度上提高文本数据统计和处理的效率。

根据本公开的第一个方面，提供一种文本的标准化处理方法，包括：

获取待处理的原始文本，并对所述原始文本进行拆分，得到所述原始文本中的各个待识别文本成分；

获取通过标准文本成分集合预先训练的文本成分识别模型，并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分；