[发明专利]一种文本注音方法及装置有效
申请号: | 201210457266.X | 申请日: | 2012-11-14 |
公开(公告)号: | CN103810993B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李伟;沈文竹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G06F40/117 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 注音 方法 装置 | ||
本发明公开了一种文本注音方法及装置。一种文本注音方法包括:获得待注音的源语言文本序列根据预设的对应关系;获得与具有音译关系的目标语言文本序列候选;根据目标语言的语言模型,选取具有较高模型评分的候选作为源语言文本序列的注音结果。上述方案利用机器翻译技术中的音译模型,可以在没有专业翻译人员的情况下,实现对用户输入的外文文本的进行自动“本地注音”。同时,结合本地语言的语言模型对多个相似读音的注音结果进行进一步筛选,可以令注音结果尽量符合本地语言的习惯,从而达到便于用户记忆的目的。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本注音方法及装置。
背景技术
随着国际化交流的日益广泛,日常生活中涉及到的外语的场合也越来越多,外语学习的重要性也不言而喻。在语言学习过程中,“说”是一个很重要的环节,为了掌握正确的外语发音,一般需要先整体了解该门语言的发音体系,然后按照字、词、句的顺序逐渐学习发音。
以上属于比较正统的学习方式,然而这种学习方式的成本较高,对于一些希望在短时间内掌握某些内容发音的用户来说,是不现实的。在这种需求下背景下,可以很自然地想到一种“捷径”的学习方式:使用母语的发音来标注外语的发音。
例如,对于高龄老人而言,已经很难有精力系统去学习外语的发音,但是有些老人却可以利用“使用母语的发音来标注外语的发音”的方式,学习一些基本的英语表达。典型的例如“玩奈特(one night)”,“好嘛吃(howmuch)”等等,尽管发音并不算特别标准,但是结合特定的场景,已经能够达到与其他国家的人基本交流的目的了。另一个典型的例子是歌剧演唱。很多中国的歌剧演唱者并不懂意大利语,但在演唱意大利歌剧时,这些演唱者也唱得有模有样。很多人选择的方式就是使用中文对意大利语的歌词进行注音,他们在演唱时,唱的实际上是中文的注音结果。
可见,使用母语发音来标注外语发音的学习方式,尽管并不正统,却能够在某些情况下取得简单快捷的学习效果,因此还是可以在一定范围内推广,例如针对老年人等等。目前,推广这种方式的主要问题在于:“注音”的工作需要由人工完成,即至少需要一个懂得外语的人,知道相应的外文该如何发音,并在此基础上标注本国语言的发音。如果没有懂得外语的人,那么标注工作也难以完成。
发明内容
为解决上述技术问题,本发明实施例提供一种文本注音方法及装置,以实现利用本地语言对外语文本进行发音标注,技术方案如下:
本发明实施例提供一种文本注音方法,该方法包括:
获得待注音的源语言文本序列
根据预设的对应关系,获得与具有音译关系的目标语言文本序列候选(i=1,2,3…N,N>1);
根据目标语言的语言模型选取具有较高模型评分的作为的注音结果。
根据本发明的一种具体实施方式,所述根据预设的对应关系,获得与具有音译关系的目标语言文本序列候选包括:
根据预先建立的模型获得与具有音译关系的目标语言文本序列候选
其中为:源语言文本与目标语言文本之间的音译模型。
根据本发明的一种具体实施方式,所述根据目标语言的语言模型选取具有较高模型评分的作为的注音结果,包括:
根据的计算结果,选择能够令得到较高取值的一个或多个作为的注音结果,其中α为预设的语言模型权重系数。
据本发明的一种具体实施方式,所述根据预设的对应关系,获得与具有音译关系的目标语言文本序列候选包括:
根据预先建立的模型获得与具有音译关系的目标语言文本序列候选
其中
为:源语言音素与源语言文本之间的音译模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210457266.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种屋架檐口连接配件
- 下一篇:一种钢梁配筋与钢柱的连接结构