[发明专利]一种文档标题提取方法和装置有效
申请号: | 201010261268.2 | 申请日: | 2010-08-23 |
公开(公告)号: | CN102375806A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 李松峰;邓姿;王长桥;张军 | 申请(专利权)人: | 北大方正集团有限公司;北京方正飞阅传媒技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 陈源;罗建民 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 标题 提取 方法 装置 | ||
1.一种文档标题提取方法,包括以下步骤:
预置待处理文档中的标题的关键符和最大长度值;
根据预置的关键符和最大长度值提取所述文档的文字流中的标题文字流。
2.根据权利要求1所述的方法,其特征在于:
对于中文文档,所述标题的关键符包括“第”、“回”、“章”、“卷”、“节”、“部分”、项目符号和编号中的至少一个;
和/或
对于英文文档,所述标题的关键符包括“Chapter”、“Section”、项目符号和编号中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述提取文档的文字流中的标题文字流的步骤包括以下步骤:
以回车换行为分隔符标记将所述文字流分成一个或多个段落文字流,并将所述段落文字流形成段落文字流集合;
从段落文字流集合中提取长度小于预置的最大长度值的段落文字流,形成类似标题文字流集合;
根据预置的关键符过滤类似标题文字流集合中的伪标题文字流,并提取类似标题文字流集合中的其余的类似标题文字流以形成标题文字流集合。
4.根据权利要求3所述的方法,其特征在于,对于标题包括多个段落的情况,除了预置标题的关键符和最大长度值之外,还预置标题所包括的段落数和各个关键符的段落位置,并且,在形成类似标题文字流集合之后,根据预置的段落数和段落位置,从该类似标题文字流集合中提取由数量为所述段落数的段落文字流所构成的类似标题文字流,形成进一步提取的类似标题文字流集合。
5.根据权利要求3或4所述的方法,其特征在于,所述过滤类似标题文字流集合中的伪标题文字流的步骤包括以下步骤:
统计预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式,包括升序、降序和固定不变;
遍历类似标题文字流集合执行以下分析步骤,直到找到第一个标题文字流为止:统计预置的关键符在类似标题文字流集合中从当前类似标题文字流开始的类似标题文字流中的位置排列方式,如果统计的关键符在类似标题文字流集合中从当前类似标题文字流开始的类似标题文字流中的位置排列方式与统计的预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式一致,则将当前类似标题文字流确定为第一个标题文字流,否则将当前类似标题文字流确定为伪标题文字流;
遍历类似标题文字流集合中位于找到的第一个标题文字流之后的所有类似标题文字流,将与统计的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式不一致的类似标题文字流确定为伪标题文字流。
6.根据权利要求5所述的方法,其特征在于:
所述统计预置的关键符在类似标题文字流集合中的所有类似标题文字流中的位置排列方式的步骤包括以下步骤:
创建一个表示预置的关键符在每个类似标题文字流中的位置的大小为m×maxLength的矩阵L,其中,m为类似标题文字流集合中的类似标题文字流的个数,maxLength为预置的标题的最大长度值,矩阵L中的元素Li,j表示第i个类似标题文字流中的第j个字符所在的位置,i=1,…,m,j=1,…,maxLength,并将矩阵L的每个元素Li,j初始化为0;
遍历类似标题文字流集合,执行以下步骤:遍历预置的所有关键符,获取每个关键符在每个类似标题文字流中的位置,并将矩阵L中相应位置的元素Li,j设置为1;
创建一个表示预置的关键符在类似标题文字流集合中的位置排列方式的大小为1×n的矩阵A,并将所有元素A初始化为0,其中,n为预置的关键符个数,矩阵A中的元素Ai表示第i个关键符在类似标题文字流集合中的位置排列方式,Ai=-1表示第i个关键符在类似标题文字流集合中的位置形成降序排列,i=1,…,n,Ai=0表示第i个关键符在类似标题文字流集合中的位置固定不变,Ai=1表示第i个关键符在类似标题文字流集合中的位置形成升序排列;
根据矩阵L,统计每个关键符在类似标题文字流集合中的位置排列方式,并分别根据统计的位置排列方式是降序、固定不变还是升序将矩阵A中的相应元素设置为-1、0或1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正飞阅传媒技术有限公司,未经北大方正集团有限公司;北京方正飞阅传媒技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010261268.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示页面的方法及设备
- 下一篇:高压清洗机用无油泵