[发明专利]一种目录映射关系挖掘方法和装置有效
申请号: | 201310175569.7 | 申请日: | 2013-05-13 |
公开(公告)号: | CN103294780B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 刘埔 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目录 映射 关系 挖掘 方法 装置 | ||
技术领域
本发明涉及信息处理技术,尤其涉及一种目录映射关系挖掘方法和装置。
背景技术
对于词条系统(如百科词条、搜搜词条)而言,通常将词条分类下的目录分为标准目录和用户目录。其中,标准目录由人工(如产品经理)制定,位于各个分类词条下,如人物分类词条中的人物介绍、人物经历和人物获奖记录等内容对应的标准目录;用户目录则是由用户自主创建的目录,这些自主创建的目录可能与人工制定的标准目录相同,也可能不相同但含义相似。例如,标准目录为“人物简介”,而用户创建的目录可能按照标准目录予以建立,为“人物简介”,也可能存在较大的随意性,为“人物资料”。
由于现有的词条系统中所有的词条基本上都是由用户创建,而用户创建的词条通常存在目录名称不规范、目录逻辑混乱、层级关系不合理、目录下的内容详略不当、弱(不)相关内容表述等问题。例如,在百科词条中,用户添加的目录大部分具有表述口语化、名称不规范或目录层级设置不合理等特点。
因此,希望可以提出一种用于解决上述问题的目录映射关系挖掘方法和装置。
发明内容
本发明的目的是提供一种目录映射关系挖掘方法和装置,可以有效解决词条系统中通常存在的目录名称不规范、目录逻辑混乱、层级关系不合理等问题。
根据本发明的一个方面,提供了一种目录映射关系挖掘方法,该方法包括以下步骤:
以词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
采用赋权投票的方式确定用户目录名称最终映射的标准目录。
根据本发明的另一个方面,还提供了一种目录映射关系挖掘装置,包括:
映射数据建立模块,用于将词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
目录和内容映射模块,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
最终映射目录确定模块,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
与现有技术相比,本发明具有以下优点:
1)通过目录映射关系挖掘,帮助提高词条系统整体可读性,可信性及全面性;
2)通过挖掘目录关联关系,识别并修改百科分类下与标准目录映射的其它目录表述,有效提升百科整体质量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图;
图2为根据本发明一个优选实施例的基于目录内容映射初步挖掘用户目录与标准目录的映射关系的方法流程图;
图3为根据本发明一个优选实施例的采用TF/IDF算法进行标准目录关键词抽取的流程图;
图4为根据本发明一个优选实施例的目录映射关系挖掘装置的示意性框图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
根据本发明的一个方面,提供了一种目录映射关系挖掘的方法。
请参考图1,图1为根据本发明一个优选实施例的目录映射关系挖掘方法流程图。
如图1所示,本发明所提供的方法包括以下步骤:
步骤S101,以词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典。
具体地,词条系统包括多个单分类下的全量词条,例如,百科词条系统中包括如娱乐人物和动漫人物等分类下的全量词条,而单个词条又包括多个目录名称及目录名称下内容。以娱乐人物这个单分类为例,其包含的目录名称及目录名称下内容有:人物简介、演艺经历、主要作品和荣誉纪录等目录名称及目录名称下内容。
如背景技术所述,词条分类下的目录分为标准目录和用户目录,而标注数据是针对标准目录和用户目录之间的映射关系而予以建立的,形式上表现为“用户目录-标准目录”映射对。通常而言,标注数据由人工予以标注,并且,每个百科词条分类下有100个左右的标注数据,例如:歌手个人信息-人物简介。
其中,同义词表是由同义词集合的数据表,其不针对具体词条分类,通常以同义词对的形式描述,如:说明-描述,介绍-简介。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310175569.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:产品图片分组方法及装置
- 下一篇:雨量数据智能实时统计方法