[发明专利]数据处理方法和数据处理设备有效
申请号: | 201210212254.0 | 申请日: | 2012-06-21 |
公开(公告)号: | CN103514192B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 张姝;孟遥;夏迎炬;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
1.一种数据处理方法,包括:
微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;
预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;
关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及
相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。
2.根据权利要求1所述的数据处理方法,其中,所述相关性确定步骤进一步包括:
标注子步骤,用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注;
种子添加子步骤,用于根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合;
训练子步骤,用于利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;
迭代子步骤,用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理,直到达到预定指标为止;以及
输出子步骤,用于基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。
3.根据权利要求2所述的数据处理方法,其中,在所述种子添加子步骤中,通过以下方式中的一种或多种而将微博添加到所述种子集合中:
将所述第一分类器和所述第二分类器具有相同的标注结果的、并且所述第一分类器和所述第二分类器均以高于预定阈值的置信度标注的微博添加到所述种子集合中;以及
将第一预定数量的、所述第一分类器以高于预定阈值的置信度标注的微博以及第二预定数量的、所述第二分类器以高于预定值的置信度标注的微博添加到所述种子集合中。
4.根据权利要求2所述的数据处理方法,其中,当达到所述预定指标时,如果所述目标集合中还存在尚未被标注的微博,则在所述相关性确定步骤中以下述方式之一来确定所述未被标注的微博与所述给定实体之间的相关性:
基于所述第一分类器和所述第二分类器之一的分类结果;以及
基于所述第一分类器以及所述第二分类器对所述未被标注的微博的分类结果的分类置信度。
5.一种数据处理设备,包括:
微博搜索单元,被配置成在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;
预处理单元,被配置成对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;
关系特征获取单元,被配置成基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及
相关性确定单元,被配置成利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210212254.0/1.html,转载请声明来源钻瓜专利网。