[发明专利]按文档的字符属性碎片化的方法有效
申请号: | 201310750311.5 | 申请日: | 2013-12-30 |
公开(公告)号: | CN103761226B | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种按文档的字符属性碎片化的方法,包括确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档。本发明通过提供一种按文档的字符属性碎片化的方法,将不同难度级别的翻译碎片,分配给合适的译员,能够最有效的促进分工,极大的提高单位翻译产能。 | ||
搜索关键词: | 文档 字符 属性 碎片 方法 | ||
【主权项】:
一种按文档的字符属性碎片化的方法,其特征在于包括:确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档;所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括:确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word,diff_word=K11·grade_word+K12·STTR+K13·density_notional其中,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数;确定所述类符形符比的过程包括:统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比;若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下:其中,token为所述不足标准数量的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量, typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310750311.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种金属管的连接结构
- 下一篇:一种承插式钢接头连接装置