[发明专利]一种对电子文书进行类别划分的方法和装置在审
申请号: | 201710157148.X | 申请日: | 2017-03-16 |
公开(公告)号: | CN108628869A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 王宏刚 | 申请(专利权)人: | 富士施乐实业发展(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/20;G06K9/62 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈亮 |
地址: | 200131 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类类别 方法和装置 分类信息 类别特征 页面 | ||
1.一种对电子文书进行类别划分的方法,其特征在于,所述方法包括:
a)获取分类信息,所述分类信息指示多个分类类别;
b)提取所述电子文书的每个页面对应的类别特征信息;以及
c)基于所述类别特征信息,将所述电子文书的每个页面归入所述多个分类类别中的相应分类类别。
2.如权利要求1所述的方法,其特征在于,所述步骤c)进一步包括:
c1)针对所述电子文书的每个页面,计算各个分类类别对应的参考类别特征信息与该页面对应的类别特征信息的匹配度;
c2)将所述电子文书的每个页面归入与高于阈值的匹配度相关联的分类类别。
3.如权利要求2所述的方法,其特征在于,所述类别特征信息为电子文书的图像信息,所述参考类别特征信息为参考类别图像信息。
4.如权利要求2所述的方法,其特征在于,所述类别特征信息为电子文书的文字信息,所述参考类别特征信息为参考类别文字信息;
所述步骤b)进一步包括:
通过OCR算法提取所述电子文书对应的文字信息。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对纸质文书进行扫描,以获得对应的所述电子文书。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
按照对所述纸质文书的每个页面的扫描顺序为所述电子文书的每个页面添加页码;
将各个页面的页码与该页面所属的分类类别的关系制作成索引页并存储。
7.如权利要求1所述的方法,其特征在于,所述步骤a)进一步包括:
a1)扫描纸质的分类指示书,以获取电子格式的所述分类指示书,其中所述分类指示书中记载有所述分类信息;
a2)对电子格式的所述分类指示书执行图像识别,以获取所述分类信息。
8.如权利要求1所述的方法,其特征在于,所述多个分类类别由多层级的母类别和子类别构成;
所述步骤c)进一步包括:
基于所述类别特征信息,将所述电子文书的每个页面归入相应的末端子类别中。
9.如权利要求8所述的方法,其特征在于,所述步骤a)进一步包括:
通过GUI画面显示所述多层级的母类别和子类别;
响应于用户对所述GUI画面内的所述母类别和/或子类别的勾选选择,以获取所述分类信息。
10.如权利要求8所述的方法,其特征在于,还包括:
基于所述分类信息生成分类指示书;以及
打印所述分类指示书。
11.如权利要求8所述的方法,其特征在于,所述方法还包括:
创建与所述多层级的母类别和子类别相对应的多层级的文件目录;以及
将所述电子文书的各个页面保存至相应的文件目录中。
12.一种对电子文书进行类别划分的装置,其特征在于,所述装置包括:
分类信息获取模块,用于获取分类信息,所述分类信息指示多个分类类别;
类别特征信息提取模块,用于提取所述电子文书的每个页面对应的类别特征信息;以及
类别划分模块,基于所述类别特征信息,将所述电子文书的每个页面归入所述多个分类类别中的相应分类类别。
13.如权利要求12所述的装置,其特征在于,所述类别划分模块进一步包括:
匹配度计算组件,用于针对所述电子文书的每个页面,计算各个分类类别对应的参考类别特征信息与该页面对应的类别特征信息的匹配度;
归类组件,用于将所述电子文书的每个页面归入与高于阈值的匹配度相关联的分类类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士施乐实业发展(中国)有限公司,未经富士施乐实业发展(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710157148.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本分类方法和装置
- 下一篇:一种网页预览方法和装置