[发明专利]稿件基因的选取方法、装置与电子设备有效
申请号: | 201811096577.1 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109299738B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张芃 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 稿件 基因 选取 方法 装置 电子设备 | ||
本发明实施例提供一种稿件基因的选取方法、装置与电子设备,该方法包括:分别选取多个稿件基因组;对于每个稿件基因组,获取多个匹配成功率样本,并据此计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有均值中的最大者对应的稿件基因组作为最大稿件基因组,并将其均值和标准差分别定义为最大均值和最大标准差;对于除最大稿件基因组之外的每个稿件基因组,基于其对应的均值和标准差,以及最大均值和最大标准差,计算其对应的Z值;基于每个稿件基因组对应的Z值,将满足设定条件的稿件基因组中的基因和最大稿件基因组中的基因合并,获取最终选取的稿件基因。本发明实施例能够使得选取出的稿件基因能够更好的体现稿件间的差异性。
技术领域
本发明实施例涉及数据处理技术领域,更具体地,涉及一种稿件基因的选取方法、装置与电子设备。
背景技术
互联网高速、海量的数据中包含着种类繁多且错综复杂的文档。不同的文档,其所包含的关键信息不尽相同,则根据这些关键信息可以对不同的文档进行适于该文档的处理方式。例如,在翻译行业中,对于不同的待翻译稿件,可以根据其所包含的关键信息,来为该稿件匹配最合适的翻译人员,以有效提高翻译效率和翻译准确性。
稿件与译员的基因匹配是指将译员基因与稿件基因在既定策略下通过匹配模型,实现为稿件找到最佳译员的过程。所选取的用于进行基因匹配的稿件基因与其它稿件基因相比,应该能够更好的体现待匹配稿件的差异性,如此才能为待翻译稿件匹配到更适合的译员。
稿件基因主要指通过对稿件抽取若干特征并进行有效组合,形成为稿件本质刻画的相对唯一的表征。也可以认为是通过对稿件特征属性进行分析计算、量化处理,所获取到的存在于稿件的、区别于其他稿件的、独一无二的关键信息组合。
稿件基因来源多种多样。稿件基因存在于所有稿件中,不同稿件具备不同的基因。由于具体应用的不同,目前存在的文档基因匹配算法在选择稿件待匹配基因进行匹配计算时,常根据经验来选择相应的基因组合。
但是,互联网高速、海量的数据中稿件的种类繁多且错综复杂,上述稿件基因的选择方式会存在一定的局限性,导致选择出的稿件基因不能很好的体现稿件间的差异性。因此在进行稿件基因的选择时,更重要的是要提取差异性的基因,这样才可以差异化对待。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种稿件基因的选取方法、装置与电子设备,用以使得选取出的稿件基因能够更好的体现稿件间的差异性。
第一方面,本发明实施例提供一种稿件基因的选取方法,包括:从备选稿件基因列表中,分别选取多组不同的基因,构成多个稿件基因组;对于每一个所述稿件基因组,进行多次匹配结果采样,获取多个匹配成功率样本,并基于所述多个匹配成功率样本,计算该稿件基因组对应的匹配成功率的均值和标准差;选取所有所述均值中的最大者对应的稿件基因组,定义为最大稿件基因组,并将所述最大稿件基因组的所述均值定义为最大均值,将所述最大稿件基因组的所述标准差定义为最大标准差;对于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组,基于该稿件基因组对应的所述均值和所述标准差,以及所述最大均值和所述最大标准差,计算该稿件基因组对应的Z值;基于所有所述稿件基因组中除所述最大稿件基因组之外的每一个所述稿件基因组对应的所述Z值,从所有所述稿件基因组中选取满足设定条件的稿件基因组,并将所述满足设定条件的稿件基因组中的基因和所述最大稿件基因组中的基因合并,获取最终选取的稿件基因;其中,所述Z值表示大样本差异性验证中Z值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811096577.1/2.html,转载请声明来源钻瓜专利网。