[发明专利]文档目录自动生成方法、装置及计算机可读存储介质在审
申请号: | 201910965809.0 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110852079A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 侯丽;佘昊天 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 目录 自动 生成 方法 装置 计算机 可读 存储 介质 | ||
1.一种文档目录自动生成方法,其特征在于,所述方法包括:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
2.如权利要求1所述的文档目录自动生成方法,其特征在于,所述文档目录自动生成方法还包括:构建所述生成对抗网络模型,包括:
建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
3.如权利要求2所述的文档目录自动生成方法,其特征在于,所述生成正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
4.如权利要求3所述的文档目录自动生成方法,其特征在于,所述遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,包括:
遍历所述目标文档全部内容,从所述目标文档提取一个或多个感兴趣点;
通过所述感兴趣点提取所述目标文档的内容,识别所述目标文档的大纲结构;
将所述目标文档的大纲结构与所述正则表达式进行对比匹配分析,若所述目标文档中内容与所述正则表达式匹配,则确认所述目标文档中内容为所述标题,并提取所述标题,若所述目标文档中内容与正则表达式不匹配,则确认所述目标文档中内容为文本。
5.如权利要求1至4中任意一项所述的文档目录自动生成方法,其特征在于:
所述文档目录为可扩展标记语言;
所述目标文档的文件格式为Microsoft Office Word。
6.一种文档目录自动生成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文档目录自动生成程序,所述文档目录自动生成程序被所述处理器执行时实现如下步骤:
提取目标文档中的初始标题,基于所述初始标题确定所述目标文档的初始标题规则;
将所述初始标题规则输入至预先构建的生成对抗网络模型中训练,得到训练后的标题规则;
基于训练后的所述标题规则,生成正则表达式;
遍历所述目标文档全部内容,将所述目标文档中的内容与所述正则表达式进行对比分析,提取出所述目标文档的全部所述标题,按照遍历先后顺序排列全部所述标题,生成文档目录。
7.如权利要求6所述的文档目录自动生成装置,其特征在于,
所述文档目录自动生成方法还包括:构建所述生成对抗网络模型的构建,包括:
建立生成模型和判别模型;
将所述生成模型和判别模型通过互相博弈学习得到最优化解,其中,所述最优化解包括所述训练后的标题规则。
8.如权利要求7所述的文档目录自动生成装置,其特征在于,所述配置正则表达式之前,所述文档目录自动生成方法还包括:
基于训练后的标题规则生成状态机;
其中,所述生成状态机包括:
对训练后的标题规则进行语法解析,并将所述训练后的标题规则改写成状态机构建所需的状态机规则;
根据所述状态机规则进行状态机构建;
将构建的状态机转换成生成正则表达式所需要的格式并存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965809.0/1.html,转载请声明来源钻瓜专利网。