[发明专利]一种换行符识别方法在审
申请号: | 202211197754.1 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115455931A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 邓乔波 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/191 | 分类号: | G06F40/191;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 李新昂 |
地址: | 430000 湖北省武汉市武汉东*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 换行 识别 方法 | ||
本发明公开了一种换行符识别方法,包括采用规则和语义模型相结合的方式进行换行符识别,利用基于规则的方法对换行符进行识别,对于利用规则可以判断的情况则直接返回结果;利用规则无法进行判断时,利用语义模型判断输出结果。本发明的有益效果是:提高了pdf转word的准确率,并节省了在处理错误换行符时的人工工时,并且提高文档质量,保障了后期文档解析和文档翻译的质量。
技术领域
本发明涉及一种识别方法,具体为一种换行符识别方法,属于自然语言处理技术领域。
背景技术
自然语言处理是利用机器学习来剖析文本的结构和含义。
机器翻译属于计算机语言的范畴。简单的说,就是利用自然语言处理的手段,将一种语言的文本转换为另一种语言的文本。
在对文档进行机器翻译时,通常需要把文档由pdf或者ppt等其他格式转换成word格式,进而提取文本内容并进行机器翻译。但是在利用插件将pdf文件解析成word文件时,会产生很多错误的换行符。
导致这些错误换行符出现的具体原因是:插件在将pdf转成word时,为了保证word的排版格式与pdf一致,在每一句末尾都加入了换行符。这些错误的换行符会将原本完整的一句话分割成两句,从而扰乱了句子的语义,导致文本不连贯、句子不通顺。一方面,会影响阅读和排版;另一方面,对机器翻译质量产生了严重的影响(由于机器翻译是以句子为最小单位,翻译过程需要依赖文本的上下文信息,但如果只传入半句话到机器翻译系统,那么机器就不能理解句子的完整语义,从而不能给出高质量的翻译结果)。
现有技术对于目前存在的问题的常规手段是对于转换出错的换行符通过人工手动去删除。但是,对于很多pdf文档,一个文档包含几十页内容,每页可能都包含数十个换行符。如果由人工手动处理,则会浪费大量人力,且效果,效率都得不到保证。
发明内容
本发明的目的就在于为了解决上述至少一个技术问题而提供一种换行符识别方法。
本发明通过以下技术方案来实现上述目的:一种换行符识别方法,所述换行符识别方法采用规则和语义模型相结合的方式进行换行符识别,其具体包括以下步骤:
步骤一、利用规则对换行符识别,对于利用规则能够判断的情况,则直接返回结果,其中,所述规则是指根据人们撰写word的习惯来制定相关规则,进而判断上下文是否连续,且所述规则的换行符识别所采用的规则设置有若干个;
步骤二、利用规则无法对换行符识别判断时,则利用语义模型判断输出结果,其中,所述语义模型是指利用自然语言处理技术,构建一个二分类模型,对于每个换行符而言,模型的输入是该换行符之前的一段话和该换行符之后的一段话,模型的输出则是要判断这两句话是否连续,如果连续则删掉换行符,如果不连续则保留换行符。
优选的,对换行符识别设定的所述规则包括:
①上下文字体颜色不一致判断为不连续;
②上下文字体大小不一致判断为不连续;
③上下文字体类型不一致判断为不连续;
④上文末尾为顿号或冒号判断为连续;
⑤上文末尾为句号、问号、感叹号或省略号判断为不连续;
⑥下文开头为无序列表符号时判断为不连续;
⑦下文开头为有序列表符号时判断为不连续;
⑧上文或者下文句子为居中格式判断为不连续;
⑨上文句子太短,判断为不连续。
优选的,构建所述语义模型的方法包括:
①训练数据集的构建,首先搜集中文单语语料,然后进行数据预处理,最后训练集构建;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211197754.1/2.html,转载请声明来源钻瓜专利网。