[发明专利]依存关系对齐组件、依存关系对齐训练方法、设备及介质有效

申请号：	201810987179.2	申请日：	2018-08-28
公开（公告）号：	CN110874535B	公开（公告）日：	2023-07-25
发明（设计）人：	李博;赵宇;骆卫华	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F18/214;G06N3/08
代理公司：	北京东方亿思知识产权代理有限责任公司 11258	代理人：	贺琳
地址：	开曼群岛***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	依存关系对齐组件训练方法设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种依存关系对齐组件、依存关系对齐训练方法、设备及介质，所述的依存关系对齐组件包括：词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。利用本发明实施例可获得双语句法对齐的高质量树库。

技术领域

本发明涉及计算机技术领域，尤其是涉及一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质。

背景技术

一般认为，自然语言处理(Natural Language Processing，NLP)指的是借助计算机工具开发能够理解人类语言的应用程序或服务，容易理解的例子有诸如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词、生成语法正确的完整句子和段落，等等。

已有的NLP工具绝大多数属于浅层解析工具，致使大量的语料中的深层信息不能得到很好的挖掘。举例来讲，传统的解决方案是由语言学专家制定特定的语义表示框架，其中需标注大量的数据，为了解决特定场景的问题，还需训练相应的模型，并采用神经网络学习每一个词到其他词的依存关系，从而构建语义依存图。但是，由于这种语义表示框架灵活性较差，其无法实现对更多自然语言特征的高效利用，适用的场景有限，应用面较窄。

发明内容

有鉴于此，本发明提出一种依存关系对齐组件、依存关系对齐训练方法及其装置、设备和存储介质，用以解决目前语义表示框架灵活性差的问题。

第一方面，本发明提供一种依存关系对齐组件，其包括：

词对齐信息接收模块，用于接收第一语言语料和第二语言语料各自的多个翻译结果以及对应的多个词对齐关系信息；

依存树信息接收模块，用于接收所述第一语言语料和所述第二语言语料各自的多个句法依存树；

对齐筛选模块，用于对所述多个翻译结果的对齐程度和所述多个句法依存树的对齐程度进行筛选。

第二方面，本发明还提供一种多语言依存关系对齐训练方法，所述方法包括：

步骤一，基于多个双语句对，对预设的机器翻译系统和依存句法分析组件进行训练，通过所述依存关系对齐组件得到多个双语句对分别对应的得分最高的翻译结果和句法依存树对；

步骤二，通过所述依存关系对齐组件，在得到的多个得分最高的翻译结果和句法依存树对中，将符合筛选条件的翻译结果和/或句法依存树对加入训练集；

步骤三，基于所述训练集，返回步骤一，以更新所述机器翻译系统、所述依存句法分析组件和所述训练集。

第三方面，本发明还提供一种多语言依存关系对齐训练装置，所述装置包括：

训练处理模块，用于基于多个双语句对，对预设的机器翻译系统和依存句法分析组件进行训练，