[发明专利]多维度待译文档的预处理方法有效
申请号: | 201310752261.4 | 申请日: | 2013-12-30 |
公开(公告)号: | CN103729350B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 江潮;张芃 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 译文 预处理 方法 | ||
技术领域
本发明涉及翻译技术领域,具体地说,涉及一种多维度待译文档的预处理方法。
背景技术
在全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性增长,各语种信息之间的转换需求也呈快速增长的态势。
面对海量的多语信息转换和翻译任务,目前自翻译和小规模工作间式的翻译模式已完全无法适应。翻译作为一个产业,其规模越来越大,其作用也越来越重要,现有翻译方式仅将待译文档按照学科等粗略分类就分配个译员翻译,使的有些译员并不适合翻译该待译文档,从而使得翻译速度较慢。
发明内容
本发明所要解决的技术问题是现有的翻译模式对待译文档的预处理不合理,使得后续的翻译速度较慢。
本发明的技术方案如下:
一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
进一步:如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
进一步,统计所述待译文档包括的行业类别属性的数量的过程包括:去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;统计匹配到的行业类别属性的数量。
进一步,统计所述待译文档的类符形符比的过程包括:根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752261.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于车床刀架的切刀结构及车床
- 下一篇:一种稍板平面卡具