[发明专利]一种英文文本格式优化方法及装置有效
申请号: | 201410177826.5 | 申请日: | 2014-04-29 |
公开(公告)号: | CN103942182B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 王云芝;刘水;杨宇航 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种英文文本格式优化方法及装置,该方法包括如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或,如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或,如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本发明实施例的技术方案能提高对英文阅读资源进行格式优化的效率,能节约成本。 | ||
搜索关键词: | 一种 英文 文本 格式 优化 方法 装置 | ||
【主权项】:
一种英文文本格式优化方法,其特征在于,包括:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级;如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410177826.5/,转载请声明来源钻瓜专利网。
- 上一篇:高速铝翅片滚带机用带料输送装置
- 下一篇:无缝钢管的冲压代替铆接模具