[发明专利]文档标题树的构建方法、装置、电子设备及存储介质有效

申请号：	202010247461.4	申请日：	2020-03-31
公开（公告）号：	CN111460083B	公开（公告）日：	2023-07-25
发明（设计）人：	张真;张亦鹏;刘明浩;郭江亮	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/35;G06F40/189;G06F40/253;G06F40/258;G06F40/289;G06F40/30;G06N3/0442;G06N20/00
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	曹娜
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档标题构建方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了文档标题树的构建方法、装置、电子设备及存储介质，可应用于计算机技术领域，尤其是人工智能领域。具体实现方案为：根据预定义规则将待处理文档中各个段落的文本特征与预定义规则中的段落特征进行规则匹配；在规则匹配成功的情况下，根据规则匹配的结果确定待处理文档中各个段落的段落层级；在规则匹配失败的情况下，利用机器学习模型确定待处理文档中各个段落的段落层级；基于各个段落的段落层级，构建待处理文档的文档标题树。本申请实施例适用于多种非结构化文档的标题识别和文档标题树的构建，基于预定义规则以及机器学习模型相结合的方式具有较强的容错能力，使识别结果更加准确。

技术领域

本申请可应用于计算机技术领域，尤其是人工智能领域。

背景技术

现有技术中关于文档标题识别通常是基于排版格式比较和语法比较的方法。基于排版格式比较的方法主要是通过预先定义排版格式的模板规则，比较待处理文档与模板规则的关系，进而完成标题识别。基于语法比较的方法首先定义表示语法关系的树或图形，然后构建文档标题的语法结构，比较待处理文档中的段落与文档标题的语法结构是否相符，进而完成标题识别。但是，由于目前很多文档在写作过程中存在许多非规范的现象，例如没有设置大纲级别或者大纲级别设置错误、标题格式错误等，以上情况均可导致文档标题识别困难。因此，采用上述方法可能会存在容错能力较低的问题。

发明内容

本申请实施例提出一种文档标题树的构建方法、装置、电子设备及存储介质，以解决现有技术中的以上技术问题中的至少一个。

第一方面，本申请实施例提供了一种文档标题树的构建方法，包括：

根据预定义规则将待处理文档中各个段落的文本特征与预定义规则中的段落特征进行规则匹配；

在规则匹配成功的情况下，根据规则匹配的结果确定待处理文档中各个段落的段落层级；

在规则匹配失败的情况下，利用机器学习模型确定待处理文档中各个段落的段落层级；

基于各个段落的段落层级，构建待处理文档的文档标题树。

第二方面，本申请实施例提供了一种文档标题树的构建装置，包括：

匹配单元，用于：根据预定义规则将待处理文档中各个段落的文本特征与预定义规则中的段落特征进行规则匹配；

第一确定单元，用于：在规则匹配成功的情况下，根据规则匹配的结果确定待处理文档中各个段落的段落层级；

第二确定单元，用于：在规则匹配失败的情况下，利用机器学习模型确定待处理文档中各个段落的段落层级；

构建单元，用于：基于各个段落的段落层级，构建待处理文档的文档标题树。