[发明专利]语言校正系统及其方法以及系统中的语言校正模型学习方法在审
申请号: | 201980078320.X | 申请日: | 2019-12-24 |
公开(公告)号: | CN113168498A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 崔钟根;李秀美;金东必 | 申请(专利权)人: | 语享路有限责任公司 |
主分类号: | G06F40/20 | 分类号: | G06F40/20;G06N20/00 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 齐晓静 |
地址: | 韩国首*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 校正 系统 及其 方法 以及 中的 模型 学习方法 | ||
1.一种语言校正系统,作为基于机器学习的语言校正系统,其中,包括:
矫正模型学习单元,对由非文本数据和分别对应所述非文本数据的无错误的文本数据组成的多个数据集执行机器学习,使得创建一个校正模型以检测与要校正的非文本数据相对应的文本数据;以及
语言校正单元,对于要校正的句子,使用由所述校正模型学习单元生成的校正模型来生成对应的校正句子,显示并输出校正后的部分以及生成的校正语句。
2.根据权利要求1所述的语言校正系统,其中,所述矫正模型学习单元包括:
预处理单元,对所述非文本数据执行语言检测,以执行对单个语言句子的过滤,数据净化和规范化;
学习处理单元,其针对由所述预处理器过滤的多个数据集执行监督学习数据标记,机器学习数据扩展和机器学习并行数据构造;
校正学习单元,其通过对由所述学习处理单元处理的多个数据集执行基于监督学习的机器学习来生成相应的所述校正模型;以及
第一后处理单元,通过在所述学习处理单元中在有监督的学习数据标记操作期间添加的标签附加信息来输出错误和错误类别信息,然后去除相应的标签附加信息。
3.根据权利要求2所述的语言校正系统,其中,所述学习处理单元中的机器学习数据扩展操作包括数据扩展操作,该数据扩展操作根据键盘的正确位置使用周围印刷字符形成的字母来键入包含在非文本数据中的字母。
4.根据权利要求2所述的语言校正系统,其中,在所述学习处理单元中构建用于机器学习的并行数据的操作包括将不需要校正的非文本句子与相应的文本句子配对的使用并行语料库构建并行数据的操作。
5.根据权利要求2所述的语言校正系统,其中,所述校正学习单元提供在所述监督式基于学习的机器学习中的学习结果的错误发生概率值,作为非文本数据和文本数据之间的注意力权重信息。
6.根据权利要求2所述的语言校正系统,其中,还包括针对输入的句子以预设语言执行翻译的翻译引擎,所述预处理单元在通过所述翻译引擎对所述多个数据集中的大量非文本数据执行翻译时,使用预设标记显示未注册在所述翻译引擎使用的词典中的单词,在完成大量所述非文本数据的翻译之后,进行行校正以提取由所述预设标记标记的单词,然后一起校正为没有错误的单词。
7.根据权利要求6所述的语言校正系统,其中,所述预处理单元在提取所述预设标记所指示的单词的同时,掌握频率,所述预设标记标记的单词会根据识别的频率进行排序,并统一校正为没有错误的单词。
8.根据权利要求1所述的语言校正系统,其中,所述语言校正单元包括:
预处理单元,对于要校正的句子,以句子为单位执行句子分离,并且执行对分离的句子进行标记化的预处理;
错误句子检测单元,对于已由所述预处理器预处理的要校正的句子,使用二进制分类器来区分错误句子和非错误句子;
拼写校正单元,当错误句子检测单元将句子划分为错误句子时,对所述要校正的句子执行拼写错误的校正;
文本校正单元,用于通过使用所述校正模型对通过所述拼写校正单元校正了拼写错误的句子进行文本校正的语言校正来生成校正后的句子;以及
后处理单元,对由所述文本校正单元进行的语言校正期间显示校正后的部分进行后处理,并将其与所述校正后的句子一起输出。
9.根据权利要求8所述的语言校正系统,其中,所述错误句子检测单元根据当对所述要校正的句子进行分类时识别出的可靠性信息,对所述错误句子和所述非错误句子进行分类。
10.根据权利要求8所述的语言校正系统,其中,所述拼写校正单元在校正拼写错误时提供出现拼写错误的概率值作为可靠性信息,所述文本校正单元通过针对所述拼写错误校正的句子的语言校正的关注权重来提供概率值作为可靠性信息,所述后处理单元组合由所述拼写校正单元提供的可靠性信息和所述文本校正单元提供的可靠性信息被组合起来,并作为所述校正后句子的最终可靠性信息提供。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语享路有限责任公司,未经语享路有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980078320.X/1.html,转载请声明来源钻瓜专利网。