[发明专利]信息处理设备和信息处理方法在审

专利信息
申请号: 201410602515.9 申请日: 2014-10-31
公开(公告)号: CN105630748A 公开(公告)日: 2016-06-01
发明(设计)人: 杨华;张军 申请(专利权)人: 富士通株式会社
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 韩炜;王萍
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息处理 设备 方法
【权利要求书】:

1.一种信息处理设备,包括:

预处理单元,用于对按照层级结构布局的待处理文本信息进行预处理 以生成可编辑文本;以及

目录识别单元,用于根据所述可编辑文本的正文中各个段落的段落特 征,对所述可编辑文本的目录中的各个层级进行识别,以生成具有层级结 构的目录。

2.如权利要求1所述的信息处理设备,其中,所述目录识别单元包 括:

目录页识别子单元,用于根据所述可编辑文本的各个页面中是否包含 满足第一预定规则的段落来识别第一目录页,并且根据所述第一目录页中 段落的段落特征识别其他目录页,以获取所述可编辑文本中的目录和正 文;

特征量化子单元,用于提取所述正文中各个段落的段落特征,并且对 所述段落特征进行量化;以及

目录层级识别子单元,用于基于量化的段落特征,通过对所述目录的 目录页中包括的目录行进行遍历,来确定所述目录中包含的目录的层级。

3.如权利要求2所述的信息处理设备,其中,所述目录层级识别子 单元包括:

提取模块,用于将所述第一目录页中满足所述第一预定规则的段落下 方的第一个目录行作为第1层级标题,并根据所述第1层级标题的段落特 征,提取各个目录页中包括的、其他的第1层级标题;以及

遍历模块,用于根据所有目录页中相邻两个第1层级标题之间含有的 段数,选取具有最多段数的第1层级标题以及选取其他任一个第1层级标 题作为目标第1层级标题,对每个所述目标第1层级标题下的各个目录行 进行遍历,以确定所述目标第1层级标题下包括的层级数,从而确定所述 目录的层级。

4.如权利要求3所述的信息处理设备,其中,所述遍历模块被配置 为针对每个目标第1层级标题,当所述目标第1层级标题下所具有的段数 不为0时,将所述目标第1层级标题紧下方的目录行确定为标准第2层级 标题,通过将所述目标第1层级标题下的、除标准第2层级标题之外的各 个目录行作为比较目录行、并针对所述每个比较目录行进行如下操作来获 得该比较目录行对应的层级数,其中,将该比较目录行对应的层级数K 的初始值设置为2:

操作(i),利用包括所述目标第1层级标题对应的正文段落、所述标 准第2层级标题对应的正文段落以及所述正文中除上述段落之外的其他 任一段落在内的K+1个标准初始质心进行聚类,从而获得K+1个标准稳 定质心;

操作(ii),仅将所述K+1个标准初始质心中、标准第K层级标题对 应的正文段落替换为所述比较目录行对应的正文段落,从而构成比较初始 质心,并利用所述比较初始质心进行聚类,以获得K+1个比较稳定质心; 以及

操作(iii),将所述标准稳定质心与所述比较稳定质心之间的差值与 预定阈值进行比较,以确定该比较目录行对应的层级数。

5.如权利要求4所述的信息处理设备,其中,在操作(iii)中,

如果所述差值不大于所述预定阈值,则将与该比较目录行对应的层级 数确定为K;

如果所述差值大于所述预定阈值,则将K加1,并判断执行K加1 操作之后的K是否等于N+1,其中,N为在针对已经遍历过的目录行获 得的层级数中的最大值;

如果K等于N+1,则将该比较目录行的层级确定为N+1,并将 该比较目录行作为标准第K层级标题,将该目录行对应的正文段落作为 K+1个标准初始质心之一,用于执行针对K等于N+1时进行的所述操作 (i);

否则,迭代执行操作(i)至操作(iii),直到确定该比较目录行 对应的层级数,

其中,所述遍历模块被配置为基于与每个比较目录行对应的层级数, 确定所述目标第1层级标题下包括的层级数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410602515.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top