[发明专利]翻译数据库中文档匹配方法、装置及计算机可读存储介质有效
申请号: | 201711444694.8 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108182182B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 宋安琪 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/33;G06F16/35 |
代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 李晓芳 |
地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 翻译 数据库 文档 匹配 方法 装置 计算机 可读 存储 介质 | ||
1.一种翻译数据库中文档匹配的方法,其特征在于,所述翻译数据库包括至少两种专业类别的已译文档,所述方法包括:
根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档;
所述贝叶斯分类器的配置过程包括:
将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
2.如权利要求1所述的方法,其特征在于,所述根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器包括:
确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;
根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;
根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;
根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
3.如权利要求1所述的方法,其特征在于,所述进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档包括:
根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度;
将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
4.一种翻译数据库中文档匹配的装置,其特征在于,所述翻译数据库包括至少两种专业类别的已译文档,所述装置包括:
确定单元,用于根据已配置的贝叶斯分类器,确定待匹配文档对应的当前专业类别,其中,所述贝叶斯分类器是根据所述翻译数据库的每种专业类别中每个词的词频,以及对应的词性重要性配置的;
匹配单元,用于在所述翻译数据库的与所述当前专业类别对应的已译文档中,进行文档相似度匹配,确定与所述待匹配文档匹配度最高的设定个数的匹配文档;
配置单元,其中,所述配置单元包括:
分组模块,用于将所述翻译数据库中同一专业类别对应的已译文档中每个词根据词性进行分组;
词语权值确定模块,用于根据每个词在每种专业类别对应已译文档中的出现次数,所述翻译数据库对应的专业类别的总分类数,以及每个词对应的专业类别的第一分类数,确定每个词的词语权值;
词性权值确定模块,用于根据同一词性中每个词的词语权值,确定每种词性的词性平均值,以及,将每种词性对应的词性平均值与词性平均值的和之间的比值,确定为表示每种词性重要性的词性权值;
配置模块,用于根据每个词在所述翻译数据库中出现的词频,以及对应的所述词性权值,配置贝叶斯分类器。
5.如权利要求4所述的装置,其特征在于,
所述配置模块,具体用于确定所述翻译数据库中每个词在设定的专业翻译词典中出现位置对应的词典专业类别;根据每个词对应的每种词典专业类别之间临近关系,以及对应的所述词语权值,确定每个词的专业临近权值;根据每个词的词频、所述词性权值,以及所述专业临近权值,确定每个词的权值词频;以及,根据每个词的所述权值词频,配置所述翻译数据库的贝叶斯分类器。
6.如权利要求4所述的装置,其特征在于,
所述匹配单元,具体用于根据BM25算法,获取所述翻译数据库的与所述当前专业类别对应的每一篇已译文档与所述待匹配文档的文档匹配度,并将所述文档匹配度最高的设定个数的已译文档确定为与所述待匹配文档匹配的匹配文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711444694.8/1.html,转载请声明来源钻瓜专利网。