[发明专利]用于名称消岐聚类的装置和方法有效
申请号: | 201110056065.4 | 申请日: | 2011-03-03 |
公开(公告)号: | CN102654881A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 王新文;夏迎炬;孟遥;张姝;贾文杰;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;李春晖 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 名称 消岐聚类 装置 方法 | ||
1.一种对名称训练集进行数据处理的装置,包括:
代表相似度确定单元,用于确定名称训练集的代表相似度,所述代表相似度为所述名称训练集中的文本间相似度的代表值;
优选相似度阈值选择单元,用于采用不同的相似度阈值对所述名称训练集进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及
函数拟合单元,用于根据至少两个名称训练集中的每个名称训练集的所述代表相似度和所述优选相似度阈值拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数。
2.根据权利要求1所述的装置,其中,所述代表相似度确定单元通过对所述名称训练集的文本间相似度进行加权平均来确定所述名称训练集的代表相似度。
3.根据权利要求1或2所述的装置,其中,所述代表相似度确定单元包括:
相似度序列生成单元,用于计算所述名称训练集中所有文本相互之间的相似度,并对所计算的相似度进行排序以生成相似度序列;
相似度序列划分单元,用于将所述相似度序列划分成两个或更多个块;以及
代表相似度计算单元,用于对所述相似度序列中所划分的每个块的平均相似度进行加权平均以确定所述代表相似度。
4.根据权利要求3所述的装置,其中,所述相似度序列划分单元识别所述相似度序列中相似度发生跳跃性变化的位置,并在所述跳跃性变化的位置划分所述相似度序列。
5.根据权利要求3所述的装置,其中,所述相似度序列划分单元将所述相似度序列划分成三块,首尾两块的长度小于中间一块的长度。
6.根据权利要求3所述的装置,其中,所述代表相似度计算单元从所划分的各个块中选择关键相似度块,在所述加权平均中对所述关键相似度块赋予较高权重。
7.根据权利要求6所述的装置,其中,所述代表相似度计算单元根据下式选择所述关键相似度块:
其中,n为所述相似度序列中所划分的块的总数,k为关键相似度块在n个块中的序号。
8.一种对名称训练集进行数据处理的方法,包括步骤:
确定至少两个名称训练集中每个名称训练集的代表相似度,所述代表相似度为相应名称训练集中的文本间相似度的代表值;
针对所述至少两个名称训练集中的每个名称训练集,采用不同的相似度阈值进行聚类以选择使聚类效果较佳的相似度阈值作为优选相似度阈值;以及
根据所述至少两个名称训练集中每个名称训练集的所述代表相似度和所述优选相似度阈值,拟合表示所述代表相似度与所述优选相似度阈值之间对应关系的函数。
9.一种用于名称消岐的聚类装置,包括:
代表相似度确定单元,用于确定所述待消岐名称集的代表相似度;
优选相似度阈值估算单元,用于根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值;以及
聚类单元,用于利用所确定的优选相似度阈值对所述待消岐名称集进行聚类。
10.一种用于名称消岐的聚类方法,包括步骤:
确定待消岐名称集的代表相似度;
根据表示代表相似度与使聚类效果较佳的优选相似度阈值之间对应关系的预定函数,确定与所确定的代表相似度对应的所述优选相似度阈值;以及
利用所确定的优选相似度阈值对所述待消岐名称集进行聚类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110056065.4/1.html,转载请声明来源钻瓜专利网。