[发明专利]文档层级划分方法、文档层级划分装置和可读存储介质有效
申请号: | 201911404598.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111079402B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 魏超鹏;黄媞 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F40/137;G06F16/35 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;王淑梅 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 层级 划分 方法 装置 可读 存储 介质 | ||
1.一种文档层级划分方法,其特征在于,包括:
获取文档中的标题,并提取所述标题的文本特征;
根据所述文本特征对所述标题进行分类,以确定标题类别;
根据所述标题类别和排列顺序确定所述标题的级别;
其中,所述文本特征包括:关键字信息、词义信息和字形信息;
所述根据所述文本特征对所述标题进行分类的步骤,具体包括;
所述标题的所述词义信息不符合预设词义确定所述标题为未定级标题;
根据所述关键字信息对所述未定级标题进行分类,以确定项目类标题和数字类标题;
根据所述字形信息对所述数字类标题进行分类,以确定所述数字类标题的字形类别。
2.根据权利要求1所述的文档层级划分方法,其特征在于,所述根据所述标题类别和排列顺序确定所述标题的级别的步骤包括:
根据所述标题类别确定对所述未定级标题的第一调整顺序;
按照所述第一调整顺序,根据所述排列顺序依次确定所述项目类标题和所述数字类标题的级别。
3.根据权利要求2所述的文档层级划分方法,其特征在于,
所述第一调整顺序为确定所述项目类标题的级别后确定所述数字类标题的级别。
4.根据权利要求3所述的文档层级划分方法,其特征在于,所述确定所述项目类标题的级别的步骤,具体包括:
根据所述排列顺序对所述项目类标题进行划分层级,以使所述项目类标题为定级标题,并确定所述定级标题的级别。
5.根据权利要求4所述的文档层级划分方法,其特征在于,所述确定所述数字类标题的级别的步骤,具体包括:
根据所述排列顺序查找位于所述数字类标题之前的所述定级标题,确定与所述数字类标题最接近的所述定级标题的级别;
根据所述定级标题的级别确定所述数字类标题的级别。
6.根据权利要求5所述的文档层级划分方法,其特征在于,还包括:
根据所述字形类别和预设字形类别顺序确定所述数字类标题的第二调整顺序;
按照第二调整顺序,根据所述定级标题的级别和所述排列顺序依次确定每个所述字形类别的所述数字类标题的级别。
7.根据权利要求1至6中任一项所述的文档层级划分方法,其特征在于,还包括:
根据预设标题级别对每个所述标题的级别进行调整。
8.一种文档层级划分装置,其特征在于,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的文档层级划分方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文档层级划分程序,所述文档层级划分程序被处理器执行时实现如权利要求1至7中任一项所述的文档层级划分方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911404598.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞机辅助进气门通条拔出装置
- 下一篇:一种切削液循环利用车