[发明专利]智能校对系统有效

专利信息
申请号: 201811022154.5 申请日: 2018-09-04
公开(公告)号: CN109255113B 公开(公告)日: 2022-10-11
发明(设计)人: 鲁艳;焦少波;陈光;董安琪 申请(专利权)人: 郑州信大壹密科技有限公司
主分类号: G06F40/169 分类号: G06F40/169;G06F40/189;G06F40/216;G06F40/289;G06F40/30;G06V30/14;G06V30/148;G10L13/04;G10L15/02;G10L15/06;G10L15/26
代理公司: 郑州明华专利代理事务所(普通合伙) 41162 代理人: 王明朗
地址: 450000 河南省郑州市高新技*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种智能校对系统,建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个模块,系统核心校对工作由文本校对模块完成;语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作。系统融合了自然语言处理、语音识别、语音合成、OCR识别等多种人工智能技术手段,在文本、语音、图片等不同形式输入下均可以完成校对工作,增加了人机交互过程,减少了工作人员工作量,并提高了校对效率及准确率。
搜索关键词: 智能 校对 系统
【主权项】:
1.一种智能校对系统,其特征在于,包括建立文本校对模块、语音合成模块、语音识别模块和OCR识别模块,系统核心校对工作由文本校对模块完成,语音识别模块在于工作人员朗读,计算机进行校对,OCR识别模块在于将输入的图片转为文本;语音合成模块计算机校对,朗读并提醒,工作人员判断;语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作; 所述文本校对模块实现方法包括以下步骤:(1)对于用户输入的问句进行分词处理和词性标注;(2) 通过将分词后的词语串采用 N‑gram 语言模型进行建模;(3)采用 N‑gram 方法以庞大的语料库做基础,进行错误字符的定位操作,检测到可能出错的位置;(4)将疑错窗口中的字符再通过词性的 N‑gram 方法进行进一步检测,如果检测为不合理,则判定为错误,定义为出错字符串;(5)将出错字符串进行纠错处理,给出最近的相似词语,进行返回(6)组合成纠错后的语句返回给用户或者进行下一步处理; 所述语音合成模块包括训练阶段和合成阶段;所述训练阶段主要包括预处理和隐马尔科夫模型训练;在预处理阶段,首先需要对音库中的语音数据进行分析,以提取出一些相应的语音参数,根据提取得到的语音参数,利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分;整个隐马尔科夫模型的训练过程,其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练,最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树;所述合成阶段主要分为三个步骤,首先,输入的文本经过文本分析后转换成上下文相关的单元序列;然后,利用训练得到的决策树对每一个单元进行决策,得到对应的聚类状态模型,并形成聚类状态模型序列;最后,根据参数生成算法,利用参数的动态特性来生成目标的声学参数序列,并且通过 STRAIGHT合成器得到最终的合成语音;所述语音识别模块的搭建:首先,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;其次,声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示;所述OCR识别模块的实现步骤:(1)进行图像预处理,包含二值化、去噪、倾斜度矫正处理;(2)进行图像分割,将所要识别的文档分段、分行处理,按照版面做出来;(3)为字符识别,通过字符定位和字符切割,定位出字符串的边界,然后分别对字符串进行单个切割,将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配,识别出字符;(4)最后将识别结果按照原来的版面排版,输出Word或pdf格式的文档。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州信大壹密科技有限公司,未经郑州信大壹密科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811022154.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top