[发明专利]一种换行符识别方法在审

申请号：	202211197754.1	申请日：	2022-09-29
公开（公告）号：	CN115455931A	公开（公告）日：	2022-12-09
发明（设计）人：	邓乔波	申请（专利权）人：	语联网（武汉）信息技术有限公司
主分类号：	G06F40/191	分类号：	G06F40/191;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京中北知识产权代理有限公司 11253	代理人：	李新昂
地址：	430000 湖北省武汉市武汉东***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种换行识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种换行符识别方法，包括采用规则和语义模型相结合的方式进行换行符识别，利用基于规则的方法对换行符进行识别，对于利用规则可以判断的情况则直接返回结果；利用规则无法进行判断时，利用语义模型判断输出结果。本发明的有益效果是：提高了pdf转word的准确率，并节省了在处理错误换行符时的人工工时，并且提高文档质量，保障了后期文档解析和文档翻译的质量。

技术领域

本发明涉及一种识别方法，具体为一种换行符识别方法，属于自然语言处理技术领域。

背景技术

自然语言处理是利用机器学习来剖析文本的结构和含义。

机器翻译属于计算机语言的范畴。简单的说，就是利用自然语言处理的手段，将一种语言的文本转换为另一种语言的文本。

在对文档进行机器翻译时，通常需要把文档由pdf或者ppt等其他格式转换成word格式，进而提取文本内容并进行机器翻译。但是在利用插件将pdf文件解析成word文件时，会产生很多错误的换行符。

导致这些错误换行符出现的具体原因是：插件在将pdf转成word时，为了保证word的排版格式与pdf一致，在每一句末尾都加入了换行符。这些错误的换行符会将原本完整的一句话分割成两句，从而扰乱了句子的语义，导致文本不连贯、句子不通顺。一方面，会影响阅读和排版；另一方面，对机器翻译质量产生了严重的影响(由于机器翻译是以句子为最小单位，翻译过程需要依赖文本的上下文信息，但如果只传入半句话到机器翻译系统，那么机器就不能理解句子的完整语义，从而不能给出高质量的翻译结果)。

现有技术对于目前存在的问题的常规手段是对于转换出错的换行符通过人工手动去删除。但是，对于很多pdf文档，一个文档包含几十页内容，每页可能都包含数十个换行符。如果由人工手动处理，则会浪费大量人力，且效果，效率都得不到保证。

发明内容

本发明的目的就在于为了解决上述至少一个技术问题而提供一种换行符识别方法。

本发明通过以下技术方案来实现上述目的：一种换行符识别方法，所述换行符识别方法采用规则和语义模型相结合的方式进行换行符识别，其具体包括以下步骤：

步骤一、利用规则对换行符识别，对于利用规则能够判断的情况，则直接返回结果，其中，所述规则是指根据人们撰写word的习惯来制定相关规则，进而判断上下文是否连续，且所述规则的换行符识别所采用的规则设置有若干个；

步骤二、利用规则无法对换行符识别判断时，则利用语义模型判断输出结果，其中，所述语义模型是指利用自然语言处理技术，构建一个二分类模型，对于每个换行符而言，模型的输入是该换行符之前的一段话和该换行符之后的一段话，模型的输出则是要判断这两句话是否连续，如果连续则删掉换行符，如果不连续则保留换行符。

优选的，对换行符识别设定的所述规则包括：

①上下文字体颜色不一致判断为不连续；

②上下文字体大小不一致判断为不连续；

③上下文字体类型不一致判断为不连续；

④上文末尾为顿号或冒号判断为连续；

⑤上文末尾为句号、问号、感叹号或省略号判断为不连续；