[发明专利]基于映射-化简和分词及邻接排序去重方法有效
申请号: | 201110090766.X | 申请日: | 2011-04-12 |
公开(公告)号: | CN102163226A | 公开(公告)日: | 2011-08-24 |
发明(设计)人: | 尹建伟;苏伟兵;吴朝晖;邓水光;李莹;吴健 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州裕阳专利事务所(普通合伙) 33221 | 代理人: | 江助菊 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Map-Reduce和分词及邻接排序去重方法,通过基于Hadoop的Map-Reduce分布式框架下采用SNM方法的基础上的一种分词排序的邻接排序去重方法,解决了在运用信息抽取技术进行信息抽取时抽取获得的数据存在着数据大量重复的问题,并且设计对数据进行分布式处理,根据字段匹配方法计算记录间的相似度判断记录是否重复,提高整体的去重运行效率。 | ||
搜索关键词: | 基于 映射 分词 邻接 排序 方法 | ||
【主权项】:
基于Map‑Reduce和分词及邻接排序去重方法,其特征在于,包括以下步骤:1)用户在客户端输入查询信息的关键字;2)服务器端获取步骤1)中所述的关键字;3)所述服务器端应用编辑距离方法对关键字进行分词、排序后得到字符串,最后计算出所述关键字中每两个字段间字符串间的编辑距离;4)将步骤3)中所述排序后的字符串作为关键字进行排序,将此结果应用于记录去重方法的排序;5)设计所述服务器端,使所述服务器端能在分布式框架下能正常运行,并设置所述分布式框架使之能正常运行步骤1)~步骤4);所述分布式框架采用Map‑Reduce框架。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110090766.X/,转载请声明来源钻瓜专利网。
- 上一篇:平推式自动送料开槽机
- 下一篇:盐酸米诺环素控释纳米脂质体及其制备方法与用途