[发明专利]多维度待译文档的预处理方法有效
申请号: | 201310752261.4 | 申请日: | 2013-12-30 |
公开(公告)号: | CN103729350B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 江潮;张芃 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多维 译文 预处理 方法 | ||
1.一种多维度待译文档的预处理方法,其特征在于,包括:
统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;
分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;
根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
2.如权利要求1所述的多维度待译文档的预处理方法,其特征在于:
如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;
如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;
如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
3.如权利要求1或2所述的待译文档的预处理的方法,其特征在于,统计所述待译文档包括的行业类别属性的数量的过程包括:
去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;
将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;
统计匹配到的行业类别属性的数量。
4.如权利要求1或2所述的待译文档的预处理的方法,其特征在于:统计所述待译文档的类符形符比的过程包括:
根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,
将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比
其中,token为不足文档标准数量词汇的子文档的形符数,type为不足文档标准数量词汇的子文档的类符数,typei为第i个含文档标准数量个词汇的子文档的类符数,n为含文档标准数量个词汇的子文档数量,ST为文档标准数量个词汇划分单位。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310752261.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于车床刀架的切刀结构及车床
- 下一篇:一种稍板平面卡具