[发明专利]信息处理设备和信息处理方法在审
申请号: | 201410602515.9 | 申请日: | 2014-10-31 |
公开(公告)号: | CN105630748A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 杨华;张军 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 韩炜;王萍 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 设备 方法 | ||
1.一种信息处理设备,包括:
预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理 以生成可编辑文本;以及
目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特 征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结 构的目录。
2.如权利要求1所述的信息处理设备,其中,所述目录识别单元包 括:
目录页识别子单元,用于根据所述可编辑文本的各个页面中是否包含 满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中 段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正 文;
特征量化子单元,用于提取所述正文中各个段落的段落特征,并且对 所述段落特征进行量化;以及
目录层级识别子单元,用于基于量化的段落特征,通过对所述目录的 目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。
3.如权利要求2所述的信息处理设备,其中,所述目录层级识别子 单元包括:
提取模块,用于将所述第一目录页中满足所述第一预定规则的段落下 方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特 征,提取各个目录页中包括的、其他的第1层级标题;以及
遍历模块,用于根据所有目录页中相邻两个第1层级标题之间含有的 段数,选取具有最多段数的第1层级标题以及选取其他任一个第1层级标 题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行 进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述 目录的层级。
4.如权利要求3所述的信息处理设备,其中,所述遍历模块被配置 为针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数 不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级 标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各 个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获 得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K 的初始值设置为2:
操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标 准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他 任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳 定质心;
操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对 应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始 质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心; 以及
操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与 预定阈值进行比较,以确定该比较目录行对应的层级数。
5.如权利要求4所述的信息处理设备,其中,在操作(iii)中,
如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级 数确定为K;
如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1 操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获 得的层级数中的最大值;
如果K等于N+1,则将该比较目录行的层级确定为N+1,并将 该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为 K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作 (i);
否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行 对应的层级数,
其中,所述遍历模块被配置为基于与每个比较目录行对应的层级数, 确定所述目标第1层级标题下包括的层级数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410602515.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:新型保温多管除尘器
- 下一篇:超声电机预压力自动调整装置