[发明专利]语料生成方法、装置、系统、设备和可读存储介质在审

申请号：	202010746890.6	申请日：	2020-07-29
公开（公告）号：	CN114064907A	公开（公告）日：	2022-02-18
发明（设计）人：	葛鑫;施杨斌;赵宇;骆卫华	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/332;G06F16/9536
代理公司：	北京智信四方知识产权代理有限公司 11519	代理人：	宋海龙
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料生成方法装置系统设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了语料生成方法、装置、系统、设备和可读存储介质，所述语料生成方法包括：获取不同语言的文学作品以及文学作品的特征数据；根据所述文学作品的特征数据将不同语言的文学作品进行匹配，以获得不同语言的文学作品对；利用所述不同语言的文学作品对，获得不同语言的语料对，可以利用不同语言的文学作品的特点，结合标题、作者、摘要和文学作品的篇章名称进行文学作品匹配，获得不同语言的文学作品对，从而从不同语言的文学作品高效准确的自动生成高质量语料对。

技术领域

本公开涉及计算机技术领域，具体涉及语料生成方法、装置、系统、设备和可读存储介质。

背景技术

近年来，随着国际交流的增多，无论是电商领域、医疗领域、文学领域等，机器翻译发挥着越来越大的作用。在机器翻译中，多语种平行语料对于训练机器翻译模型有着根基性的作用。随着互联网的飞速发展，以及贸易全球化的深化，从互联网获取多语种语料成了各个语料系统的最重要来源。例如，语料的来源可以是字幕文件、外语学习网站的句对等。但是，这些类型的语料数量较少。而诸如小说、剧本等各类文学作品是包含了大量数据的文本，移动互联网的飞速发展让更多的文学创作者可以更加方便地在互联网上发表作品。无论是从数量上，还是从数据的持续更新上，文学作品都是语料数据不可忽视的一个重要来源。

发明内容

为了解决相关技术中的问题，本公开实施例提供语料生成方法、装置、系统、设备和可读存储介质。

第一方面，本公开实施例中提供了一种语料生成方法，包括：

获取不同语言的文学作品以及文学作品的特征数据；

根据所述文学作品的特征数据将不同语言的文学作品进行匹配，以获得不同语言的文学作品对；

利用所述不同语言的文学作品对，获得不同语言的语料对。

结合第一方面，本公开在第一方面的第一种实现方式中，还包括：

所述文学作品的特征数据包括：文学作品的标题、作者、摘要、篇章名称中的一种或多种。

结合第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述根据所述文学作品的特征数据将不同语言的文学作品进行匹配，以获得不同语言的文学作品对，包括：

获得不同语言的文学作品的标题之间的映射关系；

获得不同语言的文学作品的作者之间的映射关系；

根据所述标题之间的映射关系以及所述作者之间的映射关系将不同语言的文学作品进行匹配。