[发明专利]一种语料处理以及模型训练的方法及系统在审

申请号：	201810929546.3	申请日：	2018-08-15
公开（公告）号：	CN110889028A	公开（公告）日：	2020-03-17
发明（设计）人：	胡娟;陈欢;宋奇	申请（专利权）人：	北京嘀嘀无限科技发展有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F40/232;G06F3/023
代理公司：	成都七星天知识产权代理有限公司 51253	代理人：	袁春晓
地址：	100193 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语料处理以及模型训练方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种语料处理以及模型训练的方法及系统。所述方法包括：挖掘用户会话；获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对构造平行语料。获得的平行语料可以进一步进行模型训练。本发明提供的方法可以通过挖掘用户会话，分析用户检索过程中的自纠错行为，获取平行语料，将平行语料库作为样本进行模型训练，建立检索词纠错模型。

技术领域

本发明涉及计算机系统，特别涉及一种语料处理进行模型训练的方法及系统。

背景技术

随着互联网的发展与普及，越来越多的人习惯于通过计算设备获取知识、信息以及服务。高效快捷的搜索也成为人们生活中不可或缺的一部分。在搜索框中输入检索词是最常见的搜索方式。在实际使用过程中，常常出现检索词输入错误、输入检索词遗漏字符等问题。

为了解决上述问题，人们提出了检索词纠错方法。

发明内容

本发明提供了一种语料处理方法，具体包括获取用户输入的检索词与选择的结果，组合输入的检索词与选择的结果形成至少一组语料对，基于至少一组语料对构造平行语料，进而得到平行语料库。获得的平行语料可以用来训练检索词纠错模型，使得该模型能自动对用户输入的检索词进行纠错。获得的平行语料还可以用在其他场景，例如机器翻译、输入法纠错等。

第一方面，本发明披露了一种语料处理的方法。该方法包括：获取用户输入的检索词与选择的结果；组合输入的检索词与选择的结果形成至少一组语料对；基于所述至少一组语料对构造平行语料，进而得到平行语料库。

在一些实施例中，所述语料处理的方法包括：基于用户日志挖掘用户会话；基于所述用户会话获取用户输入的检索词与选择的结果。

在一些实施例中，基于用户日志挖掘所述用户会话的步骤，包括：结合用户标识符及设定时间段，从所述用户会话中筛选出同一用户在所述设定时间段内的操作，进而得到所述用户会话。

在一些实施例中，所述语料处理的方法进一步包括：过滤所述至少一组语料对，并将过滤后的所述至少一组语料对构造为平行语料。

在一些实施例中，过滤所述至少一组语料对的步骤，包括：排除输入的检索词长度大于预设阈值的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，还包括：排除输入的检索词是选择的结果的前缀字符串的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部编辑距离，并排除内部编辑距离大于预设阈值的语料。

在一些实施例中，过滤所述至少一组语料对的步骤，进一步包括：统计各条语料的内部转移概率，排除内部转移概率小于预设阈值的语料。

第二方面，本发明披露了一种语料处理的系统。该系统包括：挖掘模块，用于挖掘用户会话；获取模块，用于获取所述用户会话中用户输入的检索词和选择的结果；组合模块，用于组合输入的检索词与选择的结果形成至少一组语料对；构造模块，用于基于所述至少一组语料对构造平行语料库。

第三方面，本发明披露了一种计算机可读存储介质。该存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行语料处理的方法。

第四方面，本发明披露了一种语料处理的装置，该语料处理的装置包括处理器，所述处理器用于执行语料处理的方法。

第五方面，本发明披露了一种基于平行语料训练模型的方法。所述基于平行语料训练模型的方法可以使用由语料处理的方法获得的平行语料进行模型训练。