[发明专利]一种将非结构化文本转化为结构化文本的方法及装置有效
申请号: | 201911218187.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110955714B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 朱晓峰;王加丽;金蕾 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 刘飞;周达 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 文本 转化 方法 装置 | ||
本申请实施方式公开了一种将非结构化文本转化为结构化文本的方法及装置。所述方法包括:获取非结构化文本;所述非结构化文本包含不同层级的标签;根据所述非结构化文本创建配置文件,所述配置文件包含所述非结构化文本中的指定标签与结构化文本的关联关系;根据所述配置文件,确定与所述指定标签所在的标签链相关联的结构化文本;所述标签链由所述不同层级的标签构成;根据所述非结构化文本,确定所述标签链的出现频次以及所述标签链对应的数据;根据所述标签链的出现频次,将所述标签链对应的数据,写入与所述标签链相关联的结构化文本。本说明书实施例提供的方法可以适用于不同的非结构化文本,提高了复用性。
技术领域
本申请涉及数据处理领域,特别涉及一种将非结构化文本转化为结构化文本的方法及装置。
背景技术
在使用关系型数据库的开发项目中,往往涉及到铺底数据或者码表的导入,需要将非结构化数据,比如XML、JSON格式的文件转换成结构化数据,以便导入到关系型数据库中。
目前,通常的做法是写一个转换程序进行转换,但是该转换程序需要先获取非结构化文本的结构才能对该非结构化数据进行转换,因此,需要将该非结构化文本的标签名以及标签和结构化文本的关联关系硬编码到转换程序的代码中,这就使得转换程序和非结构化文本的结构具有强耦合性,当非结构化文本不同时,就需要重写或者修改转换程序,导致灵活性和可复用性较差。因此,如何提供一种将非结构化文本转化为结构化文本的方法,以适用于不同的非结构化文本,成为一个亟待解决的问题。
发明内容
本申请实施例的目的是提供一种将非结构化文本转化为结构化文本的方法及装置,以适用于不同的非结构化文本,从而提高非结构化文本转化为结构化文本的可复用性。
为达到上述目的,本申请实施例提供一种将非结构化文本转化为结构化文本的方法,包括:
获取非结构化文本;所述非结构化文本包含不同层级的标签;
根据所述非结构化文本创建配置文件,所述配置文件包含所述非结构化文本中的指定标签与结构化文本的关联关系;
根据所述配置文件,确定与所述指定标签所在的标签链相关联的结构化文本;所述标签链由所述不同层级的标签构成;
根据所述非结构化文本,确定所述标签链的出现频次以及所述标签链对应的数据;
根据所述标签链的出现频次,将所述标签链对应的数据,写入与所述标签链相关联的结构化文本。
在一个实施例中,所述配置文件通过以下方式创建:
从所述非结构化文本中依次提取互不相同的标签;
从所述互不相同的标签中选取指定标签,并在所述指定标签中添加所述结构化文本的文本标识。
在一个实施例中,所述根据所述配置文件,确定与所述指定标签所在的标签链相关联的结构化文本,包括:
解析所述配置文件;
将解析出的所述结构化文本的文本标识,以及与所述结构化文本关联的标签链对应进行存储,得到第一记录;
根据所述第一记录,确定与所述指定标签所在的标签链相关联的结构化文本。
在一个实施例中,所述根据所述非结构化文本,确定所述标签链的出现频次以及所述标签链对应的数据,包括:
解析所述非结构化文本,并对解析出的标签链进行编号;将所述标签链以及所述标签链的出现频次对应进行存储,得到第二记录;将所述标签链、所述标签链的编号,以及与所述标签链对应的数据对应进行存储,得到第三记录;
根据所述第二记录及第三记录,确定所述标签链的出现频次以及所述标签链对应的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911218187.1/2.html,转载请声明来源钻瓜专利网。