[发明专利]从非字符子标记信号中自动检测语言在审
申请号: | 202180063398.1 | 申请日: | 2021-06-03 |
公开(公告)号: | CN116194925A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | A·S·格拉斯;M·H·马格努斯;R·拉德克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 标记 信号 自动检测 语言 | ||
在本公开的非限制性示例中,呈现了用于确定文本字符串的语言的系统、方法和设备。可以维护语言检测模型。语言检测模型可以包括针对词首辅音和词尾辅音的身份和权重,针对前缀和后缀的身份和权重,以及针对元音序列的身份和权重,其中每个身份都是从训练语料库中导出的。权重可以对应于文本单元在语料库中的频率。可以接收文本字符串,并且可以确定文本字符串与语言检测模型的语言之间的匹配分数。匹配分数可以基于针对文本字符串中每个单词的词首辅音分数和词尾辅音分数、前缀分数和后缀分数和/或元音序列分数。如果匹配分数满足阈值,则可以执行与该语言相关联的后续动作。
背景技术
计算设备上的文本输入越来越依赖于特定语言的处理来提炼和响应用户意图。这种处理依赖于一个核心假设,即被输入的文本的语言是已知的。当假设的语言与输入的文本不匹配时,这些系统运行很差。为了解决这个问题,系统可以使用预处理步骤来标识传入的文本字符串的语言。
本文公开的本技术的各方面是针对该一般技术环境而已经被考虑的。此外,尽管已经讨论了一般环境,但是应当理解,本文描述的示例不应当限于背景中所标识的一般环境。
发明内容
提供本公开内容是为了以简化的形式介绍一些概念,这些概念将在下文的具体实施方式部分中进一步描述。该发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。示例的附加方面、特征和/或优点将在下面的描述中部分地阐述,并且部分地将从描述中变得显而易见,或者可以通过本公开的实践来了解。
本公开的非限制性示例描述了用于确定输入至计算设备的文本字符串的语言的系统、方法和设备。语言检测应用或服务可以维护针对一种或多种语言的语言检测模型。语言检测模型可以包括:多个前缀的身份(identity),以及与这些前缀相关联的权重(weight),如在语言的语料库中所标识的那样;多个后缀的身份,以及与这些后缀相关联的权重,如在语言的语料库中所标识的那样;多个词首辅音(initial consonant)的身份,以及与这些词首辅音相关联的权重,如在语言的语料库中所标识的那样;多个词尾辅音(final consonant)的身份,以及与这些词尾辅音相关联的权重,如在语言的语料库中所标识的那样;以及元音序列的身份,以及与这些元音序列相关联的权重,如在语言的语料库中所标识的那样。与那些部分单词(例如,“标记(token)”)中的每个单词相关联的权重可以对应于部分单词在语料库中的频率(例如,频率越高,权重越高)。
当接收到文本字符串输入时,可以将一个或多个语言检测模型应用于文本字符串。可以基于被包括在文本字符串的单词中的前缀和后缀、被包括在文本字符串的单词中的音节(syllable)来确定文本字符串和与所应用的语言检测模型相对应的每种语言之间的匹配分数,其中,音节被定义为如模型中定义的可选合法的词首辅音序列,后面是由模型定义的强制合法元音序列,后面是如模型中定义的可选合法的词尾辅音序列。合法的单词或词干是仅由连续的合法音节序列组成的。在一些示例中,如果语言检测模型的匹配分数满足阈值,则可以确定文本字符串是对应的语言。在另外的示例中,文本字符串可以被确定为相关于与最高得分的语言检测模型的匹配分数相关联的语言。
附图说明
参考以下附图描述了非限制性和非穷举性示例:
图1是示出用于确定文本字符串的语言以及基于该确定执行一个或多个后续动作的示例分布式计算环境的示意图。
图2是示出语言检测模型的训练的计算环境的示意图。
图3示出了用于由被包含在语言检测训练引擎中的多个处理引擎处理来自语料库的示例性单词的计算环境。
图4示出了语言检测模型的各种组件。
图5A是用于使用基于音节的语言检测模型确定文本字符串是否与语言匹配以及基于该确定执行后续动作的方法。
图5B是用于使用基于词缀的模型确定文本字符串是否与语言匹配以及基于该确定执行后续动作的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180063398.1/2.html,转载请声明来源钻瓜专利网。