[发明专利]一种基于神经机器翻译技术的超文本标记语言翻译方法在审
申请号: | 202011212042.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112257462A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 刘兴宇;杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06F40/289;G06N3/08 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 机器翻译 技术 超文本 标记 语言 翻译 方法 | ||
本发明公开一种基于神经机器翻译技术的超文本标记语言翻译方法,从含有外文数据的网络中爬取海量数据作为超文本标记语言语料,从超文本标记语言语料中获取双语句对;对双语句对进行清洗过滤、分词、子词切分预处理,得到训练数据,并输入到神经网络模型中训练至模型收敛;对用户实时输入的超文本标记语言进行处理,提取出超文本标记语言文本中需要翻译的句子和需要保留的格式;对需要翻译的句子进行预处理,将句子标签状态进行保存并翻译;对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中,获得与用户输入匹配的高精度译文。本发明使超文本标记语言的标签被正确的保留,获得与用户输入匹配的高精度译文,使翻译效果十分优越。
技术领域
本发明涉及一种超文本标记语言翻译方法,具体为基于神经机器翻译技术的超文本标记语言翻译方法。
背景技术
随着科学技术的不断进步,互联网成为了现代人必不可少的基础资源,在现在这个信息化时代中,互联网就像电力资源一样不可或缺,人们可以十分便捷地从中获取知识,获取信息。但是,在人们浏览互联网时,有一个重大的问题摆在面前——语言障碍。出于人们对翻译的需求,机器翻译技术得以快速发展,而超文本标记语言翻译是机器翻译的一个重要问题。
超文本标记语言(HTML)是在标准通用标记语言(SGML)基础上建立的一种用于描述超文本的标记语言,SGML是ISO在1986年公布的文本描述标准。超文本指含有指向其他文档的指针的文本,标记是描述或分割文本中各对象的编码。HTML不是一种编程语言,而是一种标记语言。HTML通过标记符号来标记要显示的网页中的各个部分,它具有简易性、可扩展性、平台无关性、通用性。网页的本质就是超文本标记语言,网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容。标记语言是文本和与文本相关的其他信息的组合,显示关于文档结构和数据处理细节的计算机文本编码。与文本相关的其他信息(包括文本结构和演示信息等)和原始文本组合,但标有标记。
目前,对超文本标记语言的翻译需求已经越来越多了,很多人在日常生活中难免会浏览一些国外网站,而又有很多人不懂外文,或外文水平不够高,就会导致读不懂外文网站上的新闻,看不懂国外的专业学习资料,而常用的翻译工具却无法处理冗杂的标签,导致翻译结果不如人意,尤其是一句话的内部夹杂着标签的时候,通常会把句子分割开翻译成几个错误的独立句子。超文本标记语言翻译问题的研究核心是如何把超文本标记语言的样式保留到翻译结果上。传统的翻译模型在新的应用场景中显得愈发无力,尤其是当超文本标记语言结构日趋异构化之后,仅仅考虑翻译已经不足以解决实际需求。
在产业界,有很多机器翻译系统已经被研发和广泛使用,譬如搜狗翻译、谷歌翻译、小牛翻译、百度翻译等等。但是它们在处理超文本标记语言时仍有很大的缺陷,传统的在线翻译系统由于训练数据的不同,在处理标记语言时会错误地翻译出很多无需翻译的东西和乱码。而面对大规模的标记语言的翻译任务时,往往得不到想要的结果,只有当需要翻译的内容被准确地筛选出来送入翻译系统,才能最好的利用机器翻译的性能,这浪费了大量的时间,而当需要翻译的内容内部具有标签,就需要更多的时间进行处理,并且翻译结果无法体现原来内容的标签。
发明内容
针对现有技术中神经机器翻译技术无法完整有效地应用于超文本标记语言等不足,本发明要解决的技术问题是提供一种基于神经机器翻译技术的超文本标记语言翻译方法,利用海量的真实语料,使用先进的神经机器翻译技术,配合信息抽取技术和词对齐技术,达到用户对超文本标记语言翻译结果的高质量要求。
本发明基于神经机器翻译技术的超文本标记语言翻译方法,包括以下步骤:
1)通过网络爬虫技术从含有外文数据的网络中爬取海量数据作为超文本标记语言语料,利用信息抽取技术从超文本标记语言语料中获取双语句对;
2)对句对进行清洗过滤、分词、子词切分预处理,得到训练数据;
3)将训练数据输入到神经网络模型中开始训练模型至模型收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212042.3/2.html,转载请声明来源钻瓜专利网。