[发明专利]一种文本结构化的方法、设备及系统有效

申请号：	202011488872.9	申请日：	2020-12-16
公开（公告）号：	CN112445784B	公开（公告）日：	2023-02-21
发明（设计）人：	王亚杰;罗骏	申请（专利权）人：	上海芯翌智能科技有限公司
主分类号：	G06F16/21	分类号：	G06F16/21;G06N20/00
代理公司：	上海百一领御专利代理事务所(普通合伙) 31243	代理人：	王奎宇;甘章乖
地址：	200331 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本结构方法设备系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请的目的是提供一种文本结构化的方法、设备及系统，本申请通过确定非结构化文本所需的至少一个信息提取器；对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。从而可以为深度学习技术在文本结构化过程中的使用提供便利。

技术领域

本申请涉及计算机领域，尤其涉及一种文本结构化的方法、设备及系统。

背景技术

高度普及的信息技术已广泛被各行业用来提高效率和生产力，因此积累了海量的文本数据。有效利用这些文本数据中的有用信息已是一个十分迫切的需求。深度学习技术已深入应用到文本数据处理中，Python是实现深度学习模型的主流语言，而目前的文本结构化框架是基于Java等非Python语言实现的，也没有包含深度学习模型训练模块。很明显，这对于使用深度学习技术来进行文本结构化的方法带来了一定的困难。

发明内容

本申请的一个目的是提供一种文本结构化的方法、设备及系统，解决现有技术中目前的文本结构化框架不包含深度学习模型训练模块，没有提供常用的深度学习网络结构及相应的训练接口的问题。

根据本申请的一个方面，提供了一种文本结构化的方法，该方法包括：

确定非结构化文本所需的至少一个信息提取器；

对所述至少一个信息提取器进行初始化并设定每一信息提取器对应的配置文件名称以及优先级，根据所述配置文件名称及优先级确定运行顺序；

按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果；

将所述每一信息提取器的提取结果按照预设格式进行格式化，得到结构化文本。

进一步地，确定非结构化文本所需的至少一个信息提取器，包括：

判断系统中已有的信息提取器是否满足抽取需求，若否，则编写新的信息提取器补充至所述系统中，并为所述新的信息提取器添加对应的配置文件；

当所述系统中的信息提取器满足所述抽取需求时，从所有信息提取器中选取非结构化文本所需的至少一个信息提取器。

进一步地，所述配置文件包括：实现所述信息提取器的实现类的信息、实现类所需的资源路径信息以及实现类中的参数信息。

进一步地，按照所述运行顺序逐一运行所述至少一个信息提取器，得到每一信息提取器的提取结果，包括：