[发明专利]一种对翻译需求的深度挖掘方法有效
申请号: | 201310638833.6 | 申请日: | 2013-11-30 |
公开(公告)号: | CN103678540A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 江潮 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430073 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 翻译 需求 深度 挖掘 方法 | ||
技术领域
本发明涉及一种翻译技术领域,具体而言,涉及一种对翻译需求的深度挖掘方法。
背景技术
数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题。数据挖掘是指利用计算机的数据处理能力,从大量不完全、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的有着特定关系的信息、知识和规则的过程。挖掘出的信息和知识,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。
由于在同一行业同一地域的同类企业具有高度相似的外贸特性,其所需的翻译需求也往往具有高度的相关性。根据对大量客户的翻译需求统计,在一定的时域和地域范围内,客户的翻译需求具有很高的相似性,即翻译需求往往随着地域、时间在翻译方向、行业、学科领域会呈现出很大的关联性。但就对于单独的企业来说,其并未意识到其所需要的翻译需求,通过挖掘客户需求的关联关系,可以扩大用户的需求,扩展用户的对外业务,增加翻译平台的业务量。
找到这些业务需求的数据往往需要长时间去对需求进行调查统计,效率非常低,并且通过调查统计得到的数据之间的关系准确性很低。
发明内容
本发明旨在提供一种对翻译需求的深度挖掘方法,解决了数据之间的关系准确性很低,效率低的问题。
本发明公开了一种对翻译需求的深度挖掘方法,包括:
提取若干已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档;
所述文档信息集中的每条所述记录中包括如下特征:客户、该客户所在地域、对应的所述已翻译文档的类别及该篇已翻译文档的翻译方向;
将所述文档信息集中的所有记录按照所述客户进行合并,得到事务数据库;所述事务数据库中的每条记录中包含有将所述客户所在地域、对应的所述已翻译文档的类别及该篇已翻译文档的方向合并得到的客户需求集;
根据所述事务数据库中的每条记录,进行关联计算,制定客户需求集与其子集的关联规则;
按照所述关联规则,向具有所述客户需求集的X子集的客户推广该客户需求集中业务。
优选地,所述关联计算包括:
根据所述事务数据库中的记录,递推出频繁k+1项集,并计算频繁k+1项集中的子集与该频繁k+1项集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
优选地,所述递推出频繁k+1项集的过程包:
所述事务数据库的每条记录的所述客户需求集中包括至少一个客户需求;
扫描事务数据库,根据事务数据库中的记录中所述客户需求,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阀值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+1项集。
优选地,还包括:每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阀值的所述1项集,得到所述频繁1项集。
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阀值的所述k+1项集,得到所述频繁k+1项集。
优选地,所述已翻译文档的类别按照所述已翻译文档的语种、行业、学科领域进行分类。
本发明中的翻译能力之间的关联规则的挖掘方法,具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310638833.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种监控数据的显示方法及装置
- 下一篇:一种推荐列表调整方法和装置