[发明专利]用于语言检测的系统和方法有效
申请号: | 201480084163.0 | 申请日: | 2014-10-17 |
公开(公告)号: | CN107111607B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 尼基希尔·博亚;P·王;F·林德;B·普索恩 | 申请(专利权)人: | MZ知识产权控股有限责任公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263 |
代理公司: | 北京世峰知识产权代理有限公司 11713 | 代理人: | 卓霖;张春媛 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语言 检测 系统 方法 | ||
本公开的实现方式涉及用于检测文本消息中的语言的方法、系统和计算机程序存储设备。对与用户相关联的消息执行多个不同的语言检测测试。每个语言检测测试确定表示该消息是多种不同语言之一的可能性的分数集合。将该分数集合的一个或多个组合作为输入提供给一个或多个不同的分类器。每个分类器的输出包括该消息是不同语言之一的相应指示。可以基于置信度分数和/或识别的语言领域,将该消息中的语言识别为其中的一个分类器所指示的语言。
技术领域
本公开涉及语言检测,并且特别涉及一种用于检测短文本消息中的语言的系统和方法。
背景技术
一般来说,语言检测或识别是基于文本内容自动检测存在于文本主体中的语言的过程。语言检测在自动语言翻译的情况下是有用的,其中,在能够将消息准确地翻译成不同语言之前,通常必须知道文本消息的语言。
虽然一般是对许多单词和句子的集合(即,在文档层面上)执行传统语言检测,但是特别具有挑战性的领域是聊天文本领域,其中消息通常仅包括几个单词(例如,四个或更少),一些或全部消息可能是非正式和/或拼写错误的。在聊天文本领域中,由于缺乏信息以及这些消息中存在的非正式性,现有的语言检测方法已被证明是不准确和/或缓慢的。
发明内容
本文描述的系统和方法的实施例用于基于例如消息的内容、关于用于生成消息的键盘的信息和/或关于生成消息的用户的语言偏好的信息来检测文本消息中的语言。与以前的语言检测技术相比,本文描述的系统和方法通常更快更准确,特别是对于短文本消息(例如,四个字或更少)来说。
在各种示例中,本系统和方法使用多个语言检测测试和分类器来确定与文本消息中的可能语言相关联的概率。每个语言检测测试可以输出与可能语言相关联的概率集合或向量。分类器可以组合语言检测测试的输出来确定消息的最可能的语言。为消息选择的(多个)特定语言检测测试和(多个)分类器可以取决于消息的预测精度、置信度分数和/或语言领域。
在一个方面,本发明涉及一种用于识别消息中的语言的计算机实现的方法。所述方法包括:对与用户相关联的消息执行多个不同的语言检测测试,每个语言检测测试确定相应的分数集合,所述分数集合中的每个分数表示所述消息是多种不同语言中的一种的可能性;将所述分数集合的一个或多个组合作为输入提供给一个或多个不同的分类器;获得作为所述一个或多个分类器中的每一个的输出的相应指示,所述相应指示表明所述消息是所述多种不同语言中的一种,所述指示包括置信度分数;以及基于所述置信度分数和识别的语言领域中的至少一个,将所述消息中的所述语言识别为所述一个或多个分类器中的一个分类器所指示的语言。
在某些例子中,特定分类器是监督学习模型、部分监督学习模型、无监督学习模型或插值。识别所述消息中的语言可以包括基于所述置信度分数来选择所指示的语言。识别所述消息中的所述语言可以包括基于所识别的语言领域选择所述分类器。在一些情况下,所述语言领域是或者包括视频游戏、体育、新闻、议会议事、政治、健康和/或旅行。
在一些例子中,所述消息包括以下中的两个或多个:字母、数字、符号和表情符号。所述多个不同的语言检测测试可以包括从由以下方法组成的组中选择的至少两种方法:字节n-gram方法、基于词典的方法、基于字母表的方法、基于脚本的方法和用户语言配置文件方法。可以同时执行(例如,利用并行处理)所述多个不同的语言检测测试。所述一个或多个组合可以包括来自字节n-gram方法和基于词典的方法的分数集合。所述一个或多个组合还可以包括来自所述用户语言配置文件方法和/或基于字母表的方法的分数集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于MZ知识产权控股有限责任公司,未经MZ知识产权控股有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480084163.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种交通信号灯的控制方法和系统
- 下一篇:城市交通智能控制系统