[发明专利]根据跨语种短语表的断词器有效
申请号: | 201480020924.6 | 申请日: | 2014-04-08 |
公开(公告)号: | CN105210055B | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | M·A·埃尔-沙尔维;A·A-M·T·M·沙拉比 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 蔡悦 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。 | ||
搜索关键词: | 短语表 目标语言翻译 源语言 断词 语种 机器翻译 语言学规则 源语言单词 源语言短语 短语 单词分割 目标语言 土耳其语 信息检索 语音处理 自动创建 推导 词法 词干 词素 词缀 关联 翻译 英语 概率 创建 语言 | ||
【主权项】:
一种自动构建用于将源语言的单词分割成词素的断词器的方法,包括:访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;对所述跨语种短语表应用块划分操作以通过搜索所述跨语种短语表以找出由共享目标语言中的类似翻译的两个或更多个源语言短语所组成的块来将源语言短语分组成块;在每一个块中搜索不同源语言短语中的每一个以标识源语言单词的词干,每一个块中的词干包括在该块的不同源语言短语中的每一个中出现的相同的字符序列;在每一个块中搜索不同源语言短语中的每一个以找出该块的词干的多个词缀,每一个块中的词缀包括在该块的不同源语言短语中的任意一个中的词干的字符之前或之后的字符序列;生成包括源语言词干和词缀的一组词素;响应于接收到源语言的用户查询,应用所述一组词素以自动创建所述用户查询中的一个或多个单词的一个或多个不同形式;以及使用自动创建的所述用户查询中的单词的不同形式来执行扩展查询搜索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201480020924.6/,转载请声明来源钻瓜专利网。
- 上一篇:带水位检测装置的电热水壶
- 下一篇:水位计的光源系统