[发明专利]文本拼接方法及装置在审
申请号: | 201410461259.6 | 申请日: | 2014-09-11 |
公开(公告)号: | CN104199805A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 李德斌;王巨宏;许勇;全琦;黄志斌;杨大威;谭志鹏;吴现;杨言 | 申请(专利权)人: | 清华大学;腾讯科技(深圳)有限公司 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06K9/20 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 拼接 方法 装置 | ||
1.一种文本拼接方法,其特征在于,包括:
获取待拼接文本;
对所述待拼接文本中的每两个相邻的第一文本和第二文本执行以下操作,其中,所述第一文本和第二文本的拼接顺序为所述第一文本拼接在所述第二文本之前:
查找所述第一文本与所述第二文本中相同的至少一行文本字符串,其中,所述至少一行文本字符串包括所述第一文本的最后一行文本字符串和所述第二文本的第一行文本字符串;
若查找到所述相同的至少一行文本字符串,则从所述第一文本或所述第二文本中删除所述至少一行文本字符串,并按照所述拼接顺序对执行完所述删除之后的所述第一文本和所述第二文本进行拼接。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤实现所述查找所述第一文本与所述第二文本中相同的至少一行文本字符串包括:
对所述第一文本中包括所述最后一行在内的至少一行文本字符串与所述第二文本中包括所述第一行在内的至少一行文本字符串进行逐行匹配;
将所述逐行匹配得到的最大行数匹配结果作为所述第一文本与所述第二文本中相同的所述至少一行文本字符串。
3.根据权利要求2所述的方法,其特征在于,所述将所述逐行匹配得到的最大行数匹配结果作为所述第一文本与所述第二文本中相同的所述至少一行文本字符串包括:
重复执行以下步骤,直到N大于所述第一文本和所述第二文本中总行数较小的一个的总行数,N的初始值为1:
获取所述第一文本中包括所述第一文本的最后一行在内的连续N行的第一文本字符串与所述第二文本中包括所述第二文本的第一行在内的连续所述N行的第二文本字符串之间文本字符串相同的行数P;
存储所述P和对应的所述N,并令N=N+1;
从存储的所述P中获取取值最大的P最大值,并从存储的所述N中获取与所述P最大值对应的N目标,并将所述第一文本中包括所述第一文本的最后一行在内的连续所述N目标行的第一文本字符串与所述第二文本中包括所述第二文本的第一行在内的连续所述N目标行作为查找到的所述第一文本与所述第二文本中相同的所述至少一行文本字符串。
4.根据权利要求3所述的方法,其特征在于,所述存储所述P和对应的所述N包括:
判断比例值P/N是否大于预定比例阈值;
若所述比例值P/N大于所述预定比例阈值,则存储所述P和对应的所述N。
5.根据权利要求1所述的方法,其特征在于,从所述第一文本或所述第二文本中删除所述至少一行文本字符串,并按照所述拼接顺序对执行完所述删除之后的所述第一文本和所述第二文本进行拼接包括:
从所述第一文本删除所述至少一行文本字符串,并将删除了所述至少一行文本字符串的所述第一文本和所述第二文本进行拼接,其中,删除了所述至少一行文本字符串的所述第一文本的最后一行拼接在所述第二文本的第一行之前;或者
从所述第二文本删除所述至少一行文本字符串,并将所述第一文本和删除了所述至少一行文本字符串的所述第二文本进行拼接,其中,所述第一文本的最后一行拼接在删除了所述至少一行文本字符串的所述第二文本的第一行之前。
6.根据权利要求1所述的方法,其特征在于,在查找所述第一文本与所述第二文本中是否存在相同的至少一行文本字符串之后,还包括:
若不存在所述相同的至少一行文本字符串,则按照所述拼接顺序对所述第一文本和所述第二文本进行拼接,其中,所述第一文本的最后一行拼接在所述第二文本的第一行之前。
7.根据权利要求1所述的方法,其特征在于,所述获取待拼接文本包括:
获取一个或多个待识别文本图像,其中,每个所述待识别文本图像对应所述待拼接文本中的一个文本;
对每个所述待识别文本图像执行以下识别操作,得到所述待拼接文本中对应的一个文本:
判断所述待识别文本图像中的第一行与所述待识别文本图像的上边界之间的第一距离是否小于等于第一距离阈值;
若所述第一距离小于等于所述第一距离阈值,则将所述待识别文本图像中的所述第一行进行标记;
将所述待识别文本图像识别成当前文本,从所述当前文本中删除进行了所述标记的行,得到所述待拼接文本中对应的所述一个文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;腾讯科技(深圳)有限公司;,未经清华大学;腾讯科技(深圳)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410461259.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种WEB系统错误处理方法及装置
- 下一篇:一种高可靠性断电保护方法