[发明专利]从非字符子标记信号中自动检测语言在审
申请号: | 202180063398.1 | 申请日: | 2021-06-03 |
公开(公告)号: | CN116194925A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | A·S·格拉斯;M·H·马格努斯;R·拉德克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/263 | 分类号: | G06F40/263 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 标记 信号 自动检测 语言 | ||
1.一种用于确定文本字符串的语言的计算机实现的方法,所述计算机实现的方法包括:
维护针对第一语言的音节的语言检测模型,所述语言检测模型包括:
第一列表,包括来自所述第一语言的语料库的多个词首辅音的身份、以及针对所述多个词首辅音中的每个词首辅音的权重,以及
第二列表,包括来自所述第一语言的所述语料库的多个元音序列的身份、以及针对所述多个元音序列中的每个元音序列的权重,以及
第三列表,包括来自所述语料库的多个词尾辅音的身份、以及针对所述多个词尾辅音中的每个词尾辅音的权重;
将所述语言检测模型应用于所述文本字符串中的单词,其中所述应用包括:
迭代地标识所述单词内所有连续的音节;
确定被包括在所述单词的所标识的音节中的词首辅音连缀的词首辅音连缀分数,其中所述词首辅音连缀分数对应于所述词首辅音连缀在所述语料库中的频率,
确定被包括在所述单词的所标识的所述音节中的元音序列的元音序列分数,其中所述元音序列分数对应于所述元音序列在所述语料库中的频率,以及
确定被包括在所述单词的所标识的所述音节中的词尾辅音连缀的词尾辅音连缀分数,其中所述词尾辅音连缀分数对应于所述词尾辅音连缀在所述语料库中的频率;
至少根据所述词首辅音连缀分数和所述词尾辅音连缀分数,计算所述文本字符串与所述第一语言之间的语言匹配分数;
确定所述语言匹配分数满足阈值;以及
基于所述语言匹配分数满足所述阈值的所述确定,执行后续动作。
2.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:
第四列表,包括来自所述语料库的多个前缀的身份、以及针对所述多个前缀中的每个前缀的权重。
3.根据权利要求2所述的计算机实现的方法,还包括:
确定被包括在所述单词中的前缀的前缀分数,其中所述前缀分数对应于所述前缀在所述语料库中的频率;以及
其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。
4.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:
第三列表,包括来自所述语料库的多个后缀的身份、以及针对所述多个后缀中的每个后缀的权重。
5.根据权利要求4所述的计算机实现的方法,还包括:
确定被包括在所述单词中的后缀的后缀分数,其中所述后缀分数对应于所述后缀在所述语料库中的频率;以及
其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。
6.根据权利要求2所述的计算机实现的方法,还包括:
确定被包括在所述单词中的前缀序列的前缀分数,其中所述前缀分数对应于所述前缀序列在所述语料库中的频率;以及
其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。
7.根据权利要求4所述的计算机实现的方法,还包括:
确定被包括在所述单词中的后缀序列的后缀分数,其中所述后缀分数对应于所述后缀序列在所述语料库中的频率;以及
其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。
8.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将特定于所述第一语言的语言处理引擎应用于所述文本字符串。
9.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将针对所述第一语言的语言包库下载到所述文本字符串最初被输入到的计算设备。
10.根据权利要求1所述的计算机实现的方法,其中针对所述第一语言的所述语言包库包括语言嵌入库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180063398.1/1.html,转载请声明来源钻瓜专利网。