[发明专利]一种名称自动翻译系统及方法有效
申请号: | 201710996791.1 | 申请日: | 2017-10-19 |
公开(公告)号: | CN107861953B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 贾仰理;张振领;克里斯托弗·洛奇;朱利安·洛奇;位通 | 申请(专利权)人: | 聊城大学 |
主分类号: | G06F40/40 | 分类号: | G06F40/40;G06F40/20 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 商金婷 |
地址: | 252000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 名称 自动 翻译 系统 方法 | ||
1.一种名称自动翻译系统,其特征在于:所述名称自动翻译系统包括:数据预处理模块、拼音汉字映射库、中英词汇映射库、特定领域与情感字词库和基于多策略的自动翻译模块;
所述数据预处理模块接收用户输入的数据并将数据发送给基于多策略的自动翻译模块,所述数据包括名称和该名称对应物品所属的领域信息和用户倾向;所述用户倾向包括三个维度的权重值:语音权重值、语义权重值、特定领域与情感权重值;
所述拼音汉字映射库存放拼音汉字之间的关联关系;
所述中英词汇映射库存放中英词汇之间的关联关系;
所述特定领域与情感字词库存放特定领域的字和词汇;
所述基于多策略的自动翻译模块对数据预处理模块发送来的数据进行处理,利用所述拼音汉字映射库、中英词汇映射库、特定领域与情感字词库以及用户输入的语音权重值、语义权重值、特定领域与情感权重值,将接收到的名称根据其意义、处理后的音节和特定领域给出该名称对应的候选词库;
所述基于多策略的自动翻译模块包括三个子模块:语音翻译子模块、语义翻译子模块、特定领域与情感翻译子模块,每个子模块均能够产生备选词库;语义翻译模块、语音翻译模块、特定领域与情感策略翻译模块分别与用户输入的语义权重值、语音权重值、特定领域与情感权重值一一对应,当对应的权重值为非零时,选择该权重值对应的子模块;
所述语音翻译子模块进行语音翻译:在拼音汉字映射库中分别对音节的拆分和相似音节进行搜索,根据搜索到的汉字或词或单词与原音节的相似程度,采用两者的Levensthein距离值作为语音距离值,如果一个名称拆出多个音节,则将所有音节进行组合,各音节的距离值的数学平均值即为整个翻译词与原词的语音距离值;
所述语义翻译子模块进行语义翻译:在中英词汇映射库中查找与原名称词义接近的词并进行跨语言语义距离计算,得到其与原词的语义距离值;
所述特定领域与情感翻译子模块进行情感与领域词搜索:在特定领域与情感字词库中查找该特定领域所对应的所有一级和二级字词,将它们及它们的排列组合作为特定领域与情感候选词库。
2.根据权利要求1所述的名称自动翻译系统,其特征在于:所述数据预处理模块对语音进行音节的拆分,并根据语种的发音特点推荐相似音节,然后将音节的拆分和相似音节发送给名称多策略自动翻译模块。
3.根据权利要求2所述的名称自动翻译系统,其特征在于:所述特定领域与情感字词库具体如下:将所有字词按特定领域分别存放,并将每一特定领域的字词按照情感强烈程度进行分级,对每个分级中的字词分别赋予领域与情感值。
4.一种利用权利要求1至3任一项所述的名称自动翻译系统实现的翻译方法,其特征在于:所述方法包括以下步骤:
a)根据用户输入的语音权重值、语义权重值、特定领域与情感权重值进行候选语种词汇搜索,并获得查找到的词汇的语音距离值、语义距离值和特定领域与情感值;
b)根据语音权重值、语义权重值、特定领域与情感权重值、语音距离值、语义距离值和特定领域与情感值,获得各个候选词的推荐优先度;
所述步骤a)包括以下子步骤:
(1)开始;
(2)获得用户输入的原词、特定领域和语音权重值、语义权重值、特定领域与情感权重值;
(3)如果语音权重值非零,对原词进行音节分解,并搜索各音节对应的候选字、词,并入语音候选词库,并计算其与原词的语音距离值,转入步骤b);
(4)如果语义权重值非零,对原词意义相近的候选字、词进行搜索,并入语义候选词库,并计算这些候选字词与原词的语义距离值,转入步骤b);
(5)如果特定领域与情感权重值非零,对原词领域情感词进行搜索,并入特定领域与情感候选词库,并根据字词所标注级别获得这些候选字词的领域与情感值;
所述步骤b)如下:
根据用户输入的语音权重值、语义权重值、特定领域与情感权重值以及步骤a)中的步骤(3)、(4)、(5)计算得到的语音距离值、语义距离值和特定领域与情感值,计算总距离,并按照总距离进行排序即得到候选词库,在候选词库中,总距离越小的候选词的推荐优先度越高;
所述计算总距离是利用下面的公式实现的:
其中,d为总距离,wp,wc,ws分别为语音,语义和领域与策略权重值,dp,dc,ds分别为语音距离、语义距离和领域与情感值,并且满足:
0≤wp≤1,0≤ws≤1,0≤wc≤1和
wp+ws+wc=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于聊城大学,未经聊城大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710996791.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能客服中的会话主题识别方法
- 下一篇:基于人工智能的信息输出方法和装置