[发明专利]使用机器人规划作为平行语言语料库有效
申请号: | 201910354525.8 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110442877B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | J·H·康奈尔二世;J-E·朴;N·K·拉查;E·A·西斯伯特 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/56 | 分类号: | G06F40/56;G06F40/58;G06F16/33 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;丁君军 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 机器人 规划 作为 平行 语言 语料库 | ||
本公开涉及使用机器人规划作为平行语言语料库。根据机器人规划来构建用于训练认知翻译系统的平行语言语料库。以各种语言的机器人规划的集合在候选配对中被分析以看任何两个规划是否涉及相同的任务。如果是的话,以与两个规划(诸如规划名称)不同的语言的口头指令被假定为具有相同的含义,并且被关联地存储作为双语语料库的一部分。如果每个规划具有多个步骤,则来自两个规划的对应的步骤还可以被关联地存储作为语料库的一部分。机器人规划被建模为具有表示感觉状态的多个链接和表示电机动作的多个节点的有限状态自动机,并且规划相似性的确定基于两个FSA的比较。
技术领域
本发明总体上涉及语言翻译系统,并且更特别地涉及为这种系统提供更综合的平行语言语料库的方法。
背景技术
现代语言翻译系统依赖于各种技术来实现短语和句子的快速且准确的翻译。这些技术中的一些是自然语言处理和认知分析。自然语言处理(NLP)是计算机科学、人工智能和涉及计算机与人类(自然)语言(不限于英语)之间的交互的语言学的领域。NLP中的许多挑战涉及自然语言理解,即,这使得计算机能够从人类或者自然语言输入得出含义,并且其他涉及允许计算机以用户所熟悉的方式做出反应的自然语言生成。例如,非技术人员可以将自然语言问题输入到计算机系统,并且系统智能可以提供用户可以希望理解的自然语言回答。NLP使用文本分析,诸如搜索文本文档(语料库)并且相对于定义的标签集对其进行分析的文本注释器。文本注释器可以生成文档内的语言注释以标记可以隐藏文本中的概念和实体。NLP还可以涉及关系提取,即,检测制品集内的语义关系。使用自然语言处理的高级计算机系统的示例包括虚拟助手、因特网搜索引擎和深度问答系统。
认知系统(有时被称为深度学习、深度思考或者深度问答)是使用机器学习和问题解决的人工智能的形式。虽然备选设计存在,但是认知系统通常采用神经网络。人工智能的现代实现是IBM WatsonTM认知技术,其将高级自然语言处理、信息检索、知识表示、自动推理和机器学习技术应用到开放域问答的领域。这样的认知系统可以依赖于现有语料库并且以各种方式对其进行分析以便提取与查询有关的回答(诸如人、位置、组织和特定对象),或者标识正面和负面情绪。不同的技术可以用于分析自然语言、标识源、发现和生成假设、发现证据和对证据进行评分,以及合并假设和对假设进行排名。用于评分和排名回答的模型可以根据问题(输入)和回答(输出)对的大型集合来训练。独立地发现相同回答的算法越多,回答正确越可能,这导致总体得分或者置信度水平。
机器语言翻译系统通常实现具有对于源语言与目标语言之间的形态、语法和语义差异的有限灵敏度的基于短语的翻译。定制(即,训练)基于短语的统计机器翻译系统的过程通常使用平行(双语)语料库——提取以两个不同的语言写的相同材料——以优先化正确翻译的统计点击。存在链接多种语言的大型语料库,例如,其中记录欧洲议会程序的二十一种语言、联合国决议的六个语言集(英语-法语-西班牙语-俄语-汉语-阿拉伯语)和各种政府议程(诸如以英语和法语二者记录的加拿大)。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910354525.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本挖掘方法、装置、终端及存储介质
- 下一篇:一种内容翻译的方法和终端