[发明专利]文本的标准化处理方法、装置、电子设备及计算机介质在审
申请号: | 202010773099.4 | 申请日: | 2020-08-04 |
公开(公告)号: | CN111881680A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 柯昆 | 申请(专利权)人: | 医渡云(北京)技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/247;G06F40/232;G06F16/35 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标准化 处理 方法 装置 电子设备 计算机 介质 | ||
本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质,属于数据处理技术领域。该方法包括:获取待处理的原始文本,并对原始文本进行拆分,得到原始文本中的各个待识别文本成分;获取通过标准文本成分集合预先训练的文本成分识别模型,并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分;对未识别文本成分进行标准化校正;通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分;根据第一可识别文本成分和第二可识别文本成分得到原始文本的标准化文本。本公开通过将不同的原始文本归一化为统一格式和写法的标准化文本,可以提高文本数据统计和处理的效率。
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质。
背景技术
随着新型冠状病毒肺炎疫情在全球的爆发,对于密切接触者的追踪在控制疫情扩散的方面尤为重要,而病人的地理位置信息在追踪其密切接触者的时候则是一项关键数据。
然而,这些收集到的地址文本数据通常不够规范,没有一个统一的格式和写法,很难进行进一步的统计与管理。
鉴于此,本领域亟需一种能够将不同写法的地址文本转换为统一标准化格式的文本的标准化处理方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质,进而至少在一定程度上提高文本数据统计和处理的效率。
根据本公开的第一个方面,提供一种文本的标准化处理方法,包括:
获取待处理的原始文本,并对所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
获取通过标准文本成分集合预先训练的文本成分识别模型,并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分;
对所述未识别文本成分进行标准化校正;
通过所述文本成分识别模型确定校正后的所述未识别文本成分中的第二可识别文本成分;其中,所述第一可识别文本成分和所述第二可识别文本成分属于所述标准文本成分集合;
根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本。
在本公开的一种示例性实施例中,所述文本成分识别模型的训练过程包括:
获取标准文本集合,并对所述标准文本集合中的各个标准文本进行拆分,得到所述标准文本中的各个标准文本成分;
对所述标准文本成分添加对应的类型标签,并获取各个所述标准文本成分对应的同义文本成分;
根据所述标准文本成分和各个所述标准文本成分对应的同义文本成分,得到所述标准文本成分集合;
根据所述标准文本成分集合中带有所述类型标签的所述标准文本成分和对应的同义文本成分,训练所述文本成分识别模型。
在本公开的一种示例性实施例中,所述通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分,包括:
将所述待识别文本成分添加对应的类型标签后,输入所述文本成分识别模型;
通过所述文本成分识别模型判断所述待识别文本成分是否属于所述标准文本成分集合中的所述类型标签中对应的标准文本成分或同义文本成分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于医渡云(北京)技术有限公司,未经医渡云(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010773099.4/2.html,转载请声明来源钻瓜专利网。