[发明专利]基于BIRCH聚类算法翻译粤语口音和英语的APP在审
申请号: | 201710172504.5 | 申请日: | 2017-03-22 |
公开(公告)号: | CN108628841A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 邱念 | 申请(专利权)人: | 湖南本来文化发展有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30;H04M1/725 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 聚类算法 粤语 云计算中心 英语 大数据库 携带方便 智能手机 资金成本 客户端 手机 疲劳 携带 替代 | ||
1.基于BIRCH聚类算法翻译粤语口音和英语的APP,其特征在于,包括:1)手机APP客户端;2)云计算中心的粤语与英语相关翻译大数据库;3)云计算中心搭载的BIRCH聚类算法模块,三个部件构成。
2.根据权利要求1所述的部件1)其特征在于:手机APP客户端需安装在用户的智能手机上,使用时该手机需与互联网连接,且用户需佩戴连接该手机的耳机收听翻译后的音频信息。
3.根据权利要求1所述的部件2)具体包括:粤语口音音频大数据库、英语音频大数据库、由26个基础字母构成的英文文字排列组合及其释义与语法规律的大数据库、由部首偏旁构成的汉语文字结构及文字构成语法的大数据库、由不低于10个行业的行业专有名词大数据库。
4.根据权利要求1所述的部件3)是搭载在云计算中心上利用层次方法的平衡迭代规约和聚类即BIRCH聚类算法的翻译模型;该模型需要输入部件2)中的各类翻译大数据,并进行粤语口音和英语发音的大数据深度学习后,才能进行翻译。
5.根据权利要求1所述的基于BIRCH聚类算法翻译粤语口音和英语的APP,其进行翻译的过程为:APP采集用户发出的粤语口音或英语的音频信息,传输至云计算中心,由经过深度学习翻译大数据后的BIRCH聚类算法翻译模型进行翻译,再将翻译后的音频信息同步传回用户的APP上,用户通过佩戴连接该手机的耳机,听取翻译后的音频内容。
6.根据权利要求1所述的基于BIRCH聚类算法翻译粤语口音和英语的APP,其特征在于包括如步骤:
步骤一、英语文字及语法大数据与汉语文字及语法大数据采集;
步骤二、英语语音大数据与汉语语音大数据采集;
步骤三、在大数据库中扫描所有数据,构建初始化的聚类特征树,即CF tree,把稠密数据分成簇,稀疏数据作为孤立点对待;
步骤四、在BIRCH中的全局或半全局聚类算法有着输入范围的要求,据此要求细化CFtree树,建立若干个更小的CF树;
步骤五、补救由于输入顺序和页面大小带来的分裂,使用全局/半全局算法对全部叶节点进行聚类;
步骤六、把步骤五中的中心点作为种子,将数据点重新分配到最近的种子上,保证重复数据分到同一个簇中,同时添加簇标签使得翻译的准确度更为精确;
步骤七、通过步骤三到步骤六完成BIRCH聚类模型对粤语口音的音频和英语发音的音频数据进行翻译的深度学习,此时BIRCH翻译模型构建完成,在权利要求1所述的部件1)中输入不小于10000句英语音频使其通过BIRCH翻译模型翻译后从权利要求1所述的部件2)中输出音频,检测其翻译准确度;再将不小于10000句粤语方言输入权利要求1所述的部件1)通过BIRCH翻译模型翻译后从权利要求1所述的部件2)中输出音频,检测其翻译准确度;若上述两次检测的交传翻译准确率高于95%,同传翻译的准确率高于70%则BIRCH聚类模型训练成功,可以投入使用;若准确率偏低,则重复步骤三到步骤六,并延长BIRCH聚类模型的深度学习时间,直至翻译准确率达标后结束。
7.根据权利要求1所述的基于BIRCH聚类算法翻译粤语口音和英语的APP,在构建BIRCH聚类树时采用的方法为欧几里得距离函数和曼哈顿距离函数,具体公式如下:
CF tree的结构类似于一棵B-树,它有两个参数:内部节点平衡因子B,叶节点平衡因子L,簇半径阈值T,树中每个节点最多包含B个孩子节点,记为(CFi,CHILDi),1<=i<=B,CFi是这个节点中的第i个聚类特征,CHILDi指向节点的第i个孩子节点,对应于这个节点的第i个聚类特征;需特别注意的是:构建CF树的过程中,一个重要的参数是簇半径阈值T,因为它决定了CF tree的规模,从而让CF tree适应当前在云计算中心为BIRCH模型分配的内存的大小,如果T太小,那么簇的数量将会非常的大,从而导致树节点数量也会增大,这样可能会导致所有数据点还没有扫描完之前内存就不够用了,同时翻译的准确率与T值和所分配的内存大小成正比关系,此处内存不得小于100TB。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南本来文化发展有限公司,未经湖南本来文化发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710172504.5/1.html,转载请声明来源钻瓜专利网。