[发明专利]语料生成方法、装置及计算机设备在审
申请号: | 201910765700.2 | 申请日: | 2019-08-19 |
公开(公告)号: | CN112417848A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 刘恒友;李辰;包祖贻;黄睿;徐光伟;李林琳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/30;G06F16/33 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 曹威 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 生成 方法 装置 计算机 设备 | ||
本申请实施例提供一种语料生成方法、装置及一种计算机设备。本申请实施例中,通过获取目标领域中的正样本,确定与所述正样本中的至少一个正确词对应的替换词。利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本并至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。本申请实施例进一步可以快速获得大数量、高质量的目标领域的第一纠错平行语料。
技术领域
本申请实施例涉及网络技术领域,尤其涉及一种语料生成方法、装置及一种计算机设备。
背景技术
随着互联网技术的快速发展,用户越来越多地通过网上商城进行消费。当用户搜索想要的商品时,一般需要在用户端的搜索框中输入待搜索商品的文本信息,用户端基于该文本信息进行商品搜索并将与该文本信息相匹配的商品展示给用户。
但在用户输入待搜索商品的文本信息时由于知识的局限性或输入过程中的手误可能会存在输入错误文本的情况,为了提高用户体验可以通过对用户输入的错误文本信息进行搜索纠错获得符合用户需求的正确文本信息,以基于正确文本信息进行搜索并返回用户正确的搜索结果。例如,用户想要搜索商品为荠菜,但输入错误文本信息为“齐菜”经过搜索纠错后得到的正确文本信息为“荠菜”,从而返回用户基于“荠菜”搜索到的与荠菜相关的商品。
目前,针对电商领域商品的搜索纠错主要通过人工标注方式来建立搜索文本信息中错误文本与正确文本的对应关系,生成纠错平行语料数据集,其中,纠错平行语料格式可以为错误文本、正确文本。然后结合统计分析方法或监督的机器学习方法,将纠错平行语料数据集作为训练样本输入至纠错模型中进行模型训练,获得该电商领域的纠错模型。然后,利用该纠错模型对用户输入的错误文本信息进行纠错,获得正确文本信息。
实际纠错模型的纠错效果很大程度上受到训练样本的质量和数量的影响,训练样本质量越高,数量越大训练获得的纠错模型的纠错效果就越好,反之纠错效果就越差。但由于目前电商领域的纠错平行语料数量较少,因此,如何快速、有效地获得数量大、质量高的纠错平行语料,以提高纠错模型的纠错效果成为亟待解决的问题。
发明内容
本申请实施例提供一种语料生成方法、装置及一种计算机设备,无需人工标注即可自动生成目标领域的大数量、高质量的纠错平行语料,从而为提高纠错模型的纠错效果奠定了基础。
第一方面,本申请实施例中提供了一种语料生成方法,包括:
获取目标领域中的正样本;
确定与所述正样本中的至少一个正确词对应的替换词;
利用对应的替换词替换所述至少一个正确词,获得与所述正样本对应的负样本;
至少基于所述正样本及所述负样本,生成所述目标领域的第一纠错平行语料。
第二方面,本申请实施例中提供了一种语料生成方法,包括:
获取目标领域的待预测正文本;
利用所述目标领域的预测模型预测获得所述待预测正文本对应的至少一个负文本;其中,所述预测模型至少基于所述目标领域中的正样本及所述正样本对应的负样本训练获得;所述负样本利用所述正样本中的至少一个正确词各自对应的替换词替换所述至少一个正确词获得;
基于所述待预测正文本及其对应的所述至少一个负文本,生成所述目标领域的第一纠错平行语料;其中,所述第一纠错平行语料用于训练所述目标领域的纠错模型,以利用所述纠错模型对用户输入的所述目标领域中的待纠错文本进行纠错,获得所述待纠错文本对应的正确文本。
第三方面,本申请实施例中提供了一种文本纠错方法,包括:
获取文本输入界面针对用户输入操作输出的至少一个候选文本;
判断所述至少一个候选文本中是否存在目标领域中的待纠错文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910765700.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种起尘装置
- 下一篇:可穿戴设备、信号处理方法和计算可读存储介质