[发明专利]一种目录映射关系挖掘方法和装置有效
申请号: | 201310175569.7 | 申请日: | 2013-05-13 |
公开(公告)号: | CN103294780B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 刘埔 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目录 映射 关系 挖掘 方法 装置 | ||
1.一种目录映射关系挖掘方法,该方法包括以下步骤:
a)以词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
b)分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
c)采用赋权投票的方式确定用户目录名称最终映射的标准目录。
2.根据权利要求1所述的方法,其中,步骤b)进一步包括:在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。
3.根据权利要求1所述的方法,其中,步骤b)具体包括:对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。
4.根据权利要求1所述的方法,其中,步骤b)具体包括:分别采用如下两种方式共同计算用户目录名称与标准目录名称的相似度:
方式一,直接通过以下公式计算用户目录与分类体系下标准目录的相似度:
SimA=(用户目录名称与标准目录名称LCS长度*2)/用户目录名称与标准目录名称长度之和;
方式二,基于标注数据间接计算用户目录与标准目录名称相似度:
SimB=(用户目录名称与标注目录名称LCS长度*2)/(MAX(用户目录名称长度,标注目录名称长度,与标注目录名称映射的标准目录长度)*2);
其中,simA和simB分别表示采用方式一和方式二计算得到的相似度,标注目录名称指的是标注数据中对应的用户目录。
5.根据权利要求1所述的方法,所述步骤b)具体包括:
i)从标准目录名称下的内容及与标准目录名称对应的标注目录名称下的内容中抽取出最终关键词集合;
ii)以最终关键词集合作为用户目录及标准目录的关键词集合,计算用户目录关键词及标准目录关键词的权重,组成关键词权重向量;
iii)基于所述关键词权重向量,计算所述用户目录名称与标准目录名称的相似度,得到用户目录名称所初步映射的标准目录名称。
6.根据权利要求5所述的方法,其中,所述关键词的抽取,具体包括:
a)抽取标准目录对应目录集下的所有关键词,将所有标准目录对应的目录集组成一个文件集,并利用TF/IDF算法计算每个标准目录集下关键词的权重;
b)设定一阈值,抽取标准目录集关键词中IF/IDF值高于该阈值的关键词为最终标准目录关键词。
7.根据权利要求6所述的方法,其中,所述权重的具体计算公式如下:
Weight=关键字在目录集内词频/目录集内关键字总词频*In(总目录数/关键字出现的目录数)*sqrt(关键字在目录集中出现的目录数/此目录集总目录数);
其中,Weight表示每个标准目录集下关键词的权重。
8.根据权利要求1所述的方法,步骤c)进一步包括:
根据用户目录名称及目录名称下内容的整体质量,确定投票的方式;
若整体质量高,则采用扩大召回的投票方式;若整体质量低,则采用保准确的投票方式。
9.一种目录映射关系挖掘装置,包括:
映射数据建立模块,用于将词条系统中单分类下全量词条作为待映射的词条,以标注数据、同义词表作为映射词典;
目录和内容映射模块,用于分别进行用户目录名称映射及目录内容映射,确定用户目录名称初步对应的标准目录;
最终映射目录确定模块,采用赋权投票的方式确定用户目录名称最终映射的标准目录。
10.根据权利要求9所述的装置,其中,所述装置进一步包括预处理模块,用于在计算用户目录名称与标准目录的相似度前,对所述用户目录名称进行分词及词性过滤的预处理。
11.根据权利要求9所述的装置,其中,所述目录和内容映射模块的工作过程具体包括:对于经过切分倒置后语义不变的用户目录,采用正反两次最长公共子序列的算法计算所述用户目录名称与标准目录的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310175569.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:产品图片分组方法及装置
- 下一篇:雨量数据智能实时统计方法