[发明专利]语言校正系统及其方法以及系统中的语言校正模型学习方法在审
申请号: | 201980078320.X | 申请日: | 2019-12-24 |
公开(公告)号: | CN113168498A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 崔钟根;李秀美;金东必 | 申请(专利权)人: | 语享路有限责任公司 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06N20/00 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 齐晓静 |
地址: | 韩国首*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 校正 系统 及其 方法 以及 中的 模型 学习方法 | ||
本发明提供一种语言校正系统及其方法以及在系统中学习语言校正模型的方法。该系统包括校正模型学习单元和语言校正单元。校准模型学习单元用于通过机器学习由非文本数据和分别对应所述非文本数据的无错误的文本数据构成的多个数据集,创建一个校准模型以检测与要校正的非文本数据相对应的文本数据。语言校正单元使用由所述校正模型学习单元针对待校正的句子生成的校正模型来生成对应的校正句子,并且显示并输出校正后的部分以及所生成的校正句子。
技术领域
本发明涉及语言校正系统及其方法以及在系统中学习语言校正模型的方法。
背景技术
语言校正是以各种形式的语言编写的句子,例如,在因特网上编写或在因特网上分发的语言句子,即,指的是校正因特网数据中的拼写或文本错误。这些校正不仅可以包括对拼写错误或文本表达进行校正,还可以使句子更整洁,更易于阅读。
上述语言校正可以用于语言学习,或用于各种形式的文本出版物,例如书或报纸文章,以及需要语言校正的区域。
尤其,最近通过因特网分发或使用了大量的语言数据,由于语言校正主要在简单的拼写或文本上执行,因此最近出现了对大量语言数据进行更有效的语言校正的需求。
发明内容
要解决的技术问题
本发明是鉴于所述诸多问题而提出的,其目的在于,提供一种能够通过使用基于机器学习的校正模型来提供有效的语言校正结果的语言校正系统及其方法以及在系统中学习语言校正模型的方法。
技术方案
为了实现所述目的,本发明的语言校正系统,作为基于机器学习的语言校正系统,其中,包括:矫正模型学习单元,对由非文本数据和分别对应所述非文本数据的无错误的文本数据组成的多个数据集执行机器学习,使得创建一个校正模型以检测与要校正的非文本数据相对应的文本数据;以及语言校正单元,对于要校正的句子,使用由所述校正模型学习单元生成的校正模型来生成对应的校正句子,显示并输出校正后的部分以及生成的校正语句。
所述矫正模型学习单元包括:预处理单元,对所述非文本数据执行语言检测,以执行对单个语言句子的过滤,数据净化和规范化;学习处理单元,其针对由所述预处理器过滤的多个数据集执行监督学习数据标记,机器学习数据扩展和机器学习并行数据构造;校正学习单元,其通过对由所述学习处理单元处理的多个数据集执行基于监督学习的机器学习来生成相应的所述校正模型;以及第一后处理单元,通过在所述学习处理单元中在有监督的学习数据标记操作期间添加的标签附加信息来输出错误和错误类别信息,然后去除相应的标签附加信息。
所述学习处理单元中的机器学习数据扩展操作包括数据扩展操作,该数据扩展操作根据键盘的正确位置使用周围印刷字符形成的字母来键入包含在非文本数据中的字母。
在所述学习处理单元中构建用于机器学习的并行数据的操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
所述校正学习单元提供在所述监督式基于学习的机器学习中的学习结果的错误发生概率值,作为非文本数据和文本数据之间的注意力权重信息。
还包括针对输入的句子以预设语言执行翻译的翻译引擎,所述预处理单元在通过所述翻译引擎对所述多个数据集中的大量非文本数据执行翻译时,使用预设标记显示未注册在所述翻译引擎使用的词典中的单词,在完成大量所述非文本数据的翻译之后,进行行校正以提取由所述预设标记标记的单词,然后一起校正为没有错误的单词。
所述预处理单元在提取所述预设标记所指示的单词的同时,掌握频率,所述预设标记标记的单词会根据识别的频率进行排序,并统一校正为没有错误的单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语享路有限责任公司,未经语享路有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980078320.X/2.html,转载请声明来源钻瓜专利网。