[发明专利]数据处理方法和数据处理设备有效
申请号: | 201210212254.0 | 申请日: | 2012-06-21 |
公开(公告)号: | CN103514192B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 张姝;孟遥;夏迎炬;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了一种数据处理方法和设备,该方法包括微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。 | ||
搜索关键词: | 数据处理 方法 设备 | ||
【主权项】:
一种数据处理方法,包括:微博搜索步骤,用于在搜索引擎中输入给定实体的名称,以获取与所述名称相关的多条微博作为目标集合;预处理步骤,用于对所获取的多条微博中的每条微博进行预处理,以获取与所述多条微博中的每条微博相关的正文信息;关系特征获取步骤,用于基于所获取的正文信息,获取所述多条微博中的各条微博的第一关系特征和第二关系特征,其中,所述第一关系特征表示微博与所述给定实体的直接相关网页信息之间的关系,并且所述第二关系特征表示微博与所述给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,用于利用第一分类器和第二分类器,分别根据所述第一关系特征和所述第二关系特征,基于共同训练方式来确定所述多条微博中的各条微博与所述给定实体之间的相关性,其中,所述相关性确定步骤进一步包括:标注子步骤,用于分别利用所述第一分类器和所述第二分类器对所述目标集合中的每条微博进行标注;种子添加子步骤,用于根据预定规则,将所述多条微博中的、所述第一分类器和/或所述第二分类器以高于预定阈值的置信度标注的微博作为新种子添加到预设的种子集合中,并相应地从所述目标集合移除该微博,其中所述预设的种子集合是预先标注好的多条微博的集合;训练子步骤,用于利用添加了所述新种子的种子集合,分别根据所述种子集合中的各条微博的第一关系特征和第二关系特征对所述第一分类器和所述第二分类器进行训练;迭代子步骤,用于利用添加了所述新种子的种子集合迭代执行所述标注子步骤、所述种子添加子步骤以及所述训练子步骤中的处理,直到达到预定指标为止;以及输出子步骤,用于基于最终的标注结果,输出表示所述多条微博中的各条微博与所述实体之间的相关性的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210212254.0/,转载请声明来源钻瓜专利网。