[发明专利]一种英文文本格式优化方法及装置有效
申请号: | 201410177826.5 | 申请日: | 2014-04-29 |
公开(公告)号: | CN103942182B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 王云芝;刘水;杨宇航 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 英文 文本 格式 优化 方法 装置 | ||
1.一种英文文本格式优化方法,其特征在于,包括:
如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;
根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级;
如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
2.根据权利要求1所述的英文文本格式优化方法,其特征在于,还包括:
如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行;和/或如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。
3.根据权利要求2所述的英文文本格式优化方法,其特征在于,如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正包括:
如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。
4.根据权利要求3所述的英文文本格式优化方法,其特征在于,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。
5.根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:
如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
6.根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
7.根据权利要求1所述的英文文本格式优化方法,其特征在于,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级之后,还包括:
如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
8.一种英文文本格式优化装置,其特征在于,包括:
第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;
所述第一标题行确定单元还包括优先级确定子单元,所述优先级确定子单元用于:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级;
所述第一标题行确定单元还包括标题行合并子单元;
所述标题行合并子单元用于:如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
9.根据权利要求8所述的英文文本格式优化装置,其特征在于,还包括:
第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行;和/或
行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410177826.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:高速铝翅片滚带机用带料输送装置
- 下一篇:无缝钢管的冲压代替铆接模具