[发明专利]一种换行符识别方法在审
申请号: | 202211197754.1 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115455931A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 邓乔波 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F40/191 | 分类号: | G06F40/191;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 李新昂 |
地址: | 430000 湖北省武汉市武汉东*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 换行 识别 方法 | ||
1.一种换行符识别方法,其特征在于,所述换行符识别方法采用规则和语义模型相结合的方式进行换行符识别,其具体包括以下步骤:
步骤一、利用规则对换行符识别,对于利用规则能够判断的情况,则直接返回结果,其中,所述规则是指根据人们撰写word的习惯来制定相关规则,进而判断上下文是否连续,且所述规则的换行符识别所采用的规则设置有若干个;
步骤二、利用规则无法对换行符识别判断时,则利用语义模型判断输出结果,其中,所述语义模型是指利用自然语言处理技术,构建一个二分类模型,对于每个换行符而言,模型的输入是该换行符之前的一段话和该换行符之后的一段话,模型的输出则是要判断这两句话是否连续,如果连续则删掉换行符,如果不连续则保留换行符。
2.根据权利要求1所述的一种换行符识别方法,其特征在于:对换行符识别设定的所述规则包括:
①上下文字体颜色不一致判断为不连续;
②上下文字体大小不一致判断为不连续;
③上下文字体类型不一致判断为不连续;
④上文末尾为顿号或冒号判断为连续;
⑤上文末尾为句号、问号、感叹号或省略号判断为不连续;
⑥下文开头为无序列表符号时判断为不连续;
⑦下文开头为有序列表符号时判断为不连续;
⑧上文或者下文句子为居中格式判断为不连续;
⑨上文句子太短,判断为不连续。
3.根据权利要求1所述的一种换行符识别方法,其特征在于:构建所述语义模型的方法包括:
①训练数据集的构建,首先搜集中文单语语料,然后进行数据预处理,最后训练集构建;
②语义模型搭建,所述语义模型搭建采用Bilstm模型;
③语义模型训练,所述语义模型训练将训练数据集分片处理;
④语义模型预测,手动整理多条训练数据集,并分别进行预测,以对模型线上的准确率进行预测。
4.根据权利要求3所述的一种换行符识别方法,其特征在于:所述训练数据集构建中的搜集中文单语语料具体包括:
清华新闻分类语料:数据量:74万篇新闻;文档类别包括:体育、经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐;
新闻数据:包含250万篇新闻,新闻来源涵盖6.3万个媒体;
微信公众号摘要数据:从网络抓取的微信公众号的文章。
5.根据权利要求3所述的一种换行符识别方法,其特征在于:所述训练数据集构建的数据预处理具体包括:
1)对文本进行分句处理,并保留句子的语序信息;
2)对于句子长度过短,过长以及包含过多特殊字符的句子进行过滤。
6.根据权利要求3所述的一种换行符识别方法,其特征在于:所述训练数据集构建的训练集构建具体包括:
正样本:随机选择两个相邻的句子构成正样本;
负样本:随机选择一个句子,中间任意位置插入换行符,并且将其中一半的样本,前后分别加干扰句或者随机裁剪进行数据增强。
7.根据权利要求3所述的一种换行符识别方法,其特征在于:所述语义模型搭建所采用的Bilstm模型输出结果时,以中间时刻的输出作为模型最后输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211197754.1/1.html,转载请声明来源钻瓜专利网。