[发明专利]网页表格信息抽取方法及装置有效

申请号：	202010641036.3	申请日：	2020-07-06
公开（公告）号：	CN111797356B	公开（公告）日：	2023-08-08
发明（设计）人：	顾凌云;陈波;王健健	申请（专利权）人：	上海冰鉴信息科技有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/215;G06F40/295;G06F40/177
代理公司：	成都顶峰专利事务所(普通合伙) 51224	代理人：	匡睿
地址：	200000 上海市浦东新区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页表格信息抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网页表格信息抽取方法，其特征在于，应用于计算机设备，所述方法包括：

对获取的网页数据进行数据清洗，得到清洗后的网页数据；

检测所述清洗后的网页数据中是否存在web表格；

在所述清洗后的网页数据中存在web表格时，通过识别所述web表格的结构，识别出所述web表格的样式，其中，所述web表格的样式包括简单表格和复合表格；

根据所述web表格的样式，抽取出所述web表格的表格信息；

采用优化的实体识别模型对抽取的表格信息进行识别，得到所述web表格中包括的实体对象；其中：

所述通过识别所述web表格的结构，识别出所述web表格的样式的步骤包括：

对所述web表格进行检测，在检测的所述web表格的表格区域依据行标记遍历所述web表格每一行的单元格；

若当前行的单元格数量与上一行的单元格数量不相同，则确定所述web表格为复合表格；若所述web表格中所有行的单元格数量相同，则确定所述web表格为简单表格；

其中，若所述web表格的样式为复合表格，所述抽取出所述web表格的表格信息的步骤包括：

将所述web表格拆分为多个简单表格；

遍历每个拆分后的简单表格在每行上的单元格，通过表头特征词库对所述每行上的单元格内容进行文本匹配，统计匹配成功的行单元格数量；

遍历每个拆分后的简单表格在每列上的单元格，通过表头特征词库对所述每列上的单元格内容进行文本匹配，统计匹配成功的列单元格数量；

根据统计的行单元格数量及列单元格数量，判断所述每个拆分后的简单表格的类型，所述简单表格的类型包括横向表格和纵向表格；

根据所述每个拆分后的简单表格的类型，通过所述表头特征词库从所述每个拆分后的简单表格中抽取表格信息；

其中，所述根据所述每个拆分后的简单表格的类型，通过所述表头特征词库从所述每个拆分后的简单表格中抽取表格信息的步骤包括：

若拆分后的简单表格的类型为横向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元格右侧的单元格的内容，得到所述抽取表格信息；

若拆分后的简单表格的类型为纵向表格，将单元格内容与所述表头特征词库中的关键字匹配的单元格作为表头单元格，抽取位于所述表头单元格下方的单元格的内容，得到所述抽取表格信息。

2.如权利要求1所述的网页表格信息抽取方法，其特征在于，所述方法还包括对所述实体识别模型进行训练的步骤，该步骤包括：

获取标注数据中的训练集，其中，所述训练集包括已经进行文本标注的训练实体对象；

将所述训练实体对象输入所述实体识别模型中进行训练，得到所述实体识别模型的损失函数值，将该损失函数值与设定的损失函数阈值进行比较，在该损失函数值不小于所述设定的损失函数阈值时，调整所述实体识别模型的参数，重复上述步骤，直到所述实体识别模型的损失函数值小于所述设定的损失函数阈值，得到训练好的实体识别模型。

3.如权利要求2所述的网页表格信息抽取方法，其特征在于，所述方法还包括对所述训练好的实体识别模型进行优化的步骤，该步骤包括：

获取标注数据中的测试集，其中，所述测试集包括已经进行文本标注的测试实体；

将所述测试实体输入到所述训练好的实体识别模型进行测试，根据所述训练好的实体识别模型输出的输出标注以及该测试实体已标注的文本标注，计算所述训练好的实体识别模型的平衡F分数；

调整所述训练好的实体识别模型的参数，重复上述步骤，找到所述训练好的实体识别模型在不同参数下的平衡F分数；

将平衡F分数最优时对应的实体识别模型，作为所述优化的实体识别模型。

4.一种网页表格信息抽取装置，其特征在于，应用于计算机设备，所述装置包括：

清洗模块，用于对获取的网页数据进行数据清洗，得到清洗后的网页数据；

检测模块，用于检测所述清洗后的网页数据中是否存在web表格；

表格样式识别模块，用于在所述清洗后的网页数据中存在web表格时，通过识别所述web表格的结构，识别出所述web表格的样式，其中，所述web表格的样式包括简单表格和复合表格；

抽取模块，用于根据所述web表格的样式，抽取出所述web表格的表格信息；

实体对象识别模块，用于采用优化的实体识别模型对抽取的表格信息进行识别，得到所述web表格中包括的实体对象；其中：

所述表格样式识别模块具体用于：