[发明专利]一种译员稿件快速匹配方法有效

专利信息
申请号: 201510631426.1 申请日: 2015-09-29
公开(公告)号: CN105279147B 公开(公告)日: 2018-02-23
发明(设计)人: 江潮;张芃;蔺伟;陈钰清 申请(专利权)人: 语联网(武汉)信息技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京康盛知识产权代理有限公司11331 代理人: 张宇峰
地址: 430070 湖北省武汉市东湖开发区光谷软件*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种译员稿件快速匹配方法,涉及互联网翻译行业项目智能处理技术领域,包括拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员特征库。解决了现有技术为待翻译稿件筛选合适的译员的匹配过程较繁琐,不能快速筛选出合适译员的技术问题。
搜索关键词: 一种 译员 稿件 快速 匹配 方法
【主权项】:
一种译员稿件快速匹配方法,其特征在于,包括:拆分待翻译稿件,通过术语提取方法从待翻译稿件中提取术语组成稿件特征库;提取译员专业属性特征,通过术语提取方法从译员稿件库中提取术语组成译员专业特征库;通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配,获得最接近的译员专业特征库;其中,所述术语提取方法包括构建一个词语信息表的过程,步骤如下:步骤1:确定待翻译稿件或译员历史翻译稿件确定的稿件集合,定义所述稿件集合为:R_doc;步骤2:对所述稿件集合R_doc中的稿件进行编号,每篇稿件对应一个编号,将所述编号记为:docID;步骤3:对所述稿件集合R_doc中的稿件进行分词处理,经过过滤处理除去其中无意义词语以及不再做匹配使用的词语,得到所述稿件集合R_doc中所有词语的集合,所述词语的集合记为:R_word,对词语的集合R_word中的每个词语进行编号,记为wordID;步骤4:计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数,记为词频tf;步骤5:计算R_word中每个词语在所述稿件集合R_doc稿件集合中的每篇文档中的位置信息,即所述词语是所述稿件集合R_doc的第几个词语,所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和;其中,采用反向匹配的思路进行匹配,即以稿件中的所有词语R_word作为关键词,在术语库中进行匹配,所述匹配过程采用二分法进行匹配;所述匹配过程包括如下步骤:步骤a:当待翻译稿件与术语库中的某一术语的第一个词语匹配成功, 则计算所述术语的词长,将所述词长设为len;当len=1时,所述词语即为术语,返回所述术语的行业、学科、领域属性信息给所述词语所属的文档;步骤b:否则根据所述词语在文档中的位置信息,将所述词语的位置后面的len‑1个词语相应与所述术语的后len‑1个词语进行顺序匹配,若某个词语不匹配则放弃;否则继续,直到len‑1个词语都匹配完,并返回所述术语的行业、学科领域信息给所述词语所属的文档;所述相似性分析包括:步骤A:根据得到的待匹配文档的术语词频,计算术语的权重,计算方法如下:设待翻译稿件共有n个术语,词频为:f1,f2,…,fn,则每个术语的权重为wi,各术语权重向量为:{w1,w2,…,wn};每个术语的权重wi通过如下公式计算得到:步骤B:计算所述待翻译稿件的n个术语在译员专业特征库中的的数量,分别记为ki,i=1,2,……n,得到用于表示n个术语的数量的向量{k1,k2,…,kn};分别计算所述待翻译稿件的n个术语在译员专业特征库中的数量,共有m个译员作为待筛选的译员;得到m个用于表示每个译员专业特征库中n个术语的数量的向量:{k11,k12,…,k1n}、{k21,k22,…,k2n}……、{km1,km2,…,kmn};步骤C:进行相似度计算,相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到,即分别计算向量{w1,w2,…,wn}与向量{k11,k12,…,k1n}、{k21,k22,…,k2n}、……、 {km1,km2,…,kmn}的点积后得到。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510631426.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top