[发明专利]话题识别系统、装置和方法、客户终端和信息处理方法有效
申请号: | 201010546530.8 | 申请日: | 2010-11-12 |
公开(公告)号: | CN102073671A | 公开(公告)日: | 2011-05-25 |
发明(设计)人: | 阿部友一;柏木晓史 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李晓冬 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话题 识别 系统 装置 方法 客户 终端 信息处理 | ||
技术领域
本发明涉及话题识别系统、话题识别装置、客户终端、程序、话题识别方法以及信息处理方法。
背景技术
近来,随着信息通信技术的发展,各种数据已经经由网络发送/接收。特别是随着诸如博客(blog)、SNS(社交网络服务)等之类的Web服务的成长,对于普通因特网用户而言,在网络上发送意见或评论变得容易。
在这样的Web服务中,每个用户都可自由地创建标题或文章来传送Web数据(例如,网络上的文章),这使得由于不同的短语和表达而难以确定每个Web数据涉及什么种类的话题(topic)。
例如,对于与戏剧“零秒出手(Buzzer Beater)”相关的Web数据,一个用户可提出一个标题“我看了零秒出手!”,而另一个用户可提出一个标题“剧集:零秒出手”。可能存在另一情况:一些人可代替“零秒出手”而简短地描述“零秒-哔(Buzzer-bee)”,并且其他人可利用广播时间的星期几和时间来表达该戏剧,例如“周一9点剧”,等等。因此,即使是针对同一戏剧创建的,Web数据也可包含各种方式的表达,这使得难以确定具有不同表达的多个Web数据是否是关于同一戏剧的。
关于以上的议题,日本未经实审专利申请公布No.2006-268201公开了两种方法以用于从描述文章的本体(body)的概要的RSS(RDF站点摘要)数据来计算多篇文章中的相似度,并且用于确定这些文章是否基于相同话题。第一方法是“基于文章的属性值来计算相似度的方法”,该方法分别为两篇文章的每个元素,例如标题、URL、更新日期/时间、作者等,来计算相似度,以便通过对每个相似度进行加权和做加法来计算两篇文章之间的相似度。第二方法是“基于链接参考来计算相似度的方法”,该方法从文章的概要的链接标志中所包含的URL来下载文章的本体,并且计算所下载的文章本体中包含的链接之间的相似度。
发明内容
然而,上述“基于文章的属性值来计算相似度的方法”需要计算相同属性之间的相似度,并且在数据的属性未被限定的情况下不能被应用。如果文章的每个元素都是以XML(可扩展置标语言)格式写的,则可以通过属性名(标志名)和属性值(标志值)来指定诸如标题、URL、更新日期/时间、作者等之类的属性。反之,以HTML写的文章则难以比较它们之间的每个属性,这是因为作为用于描述Web页面的置标语言的HTML没有数据的属性名。即使一些属性可被提取,表达和短语也会随着时间或随着迅速发展(boom)而改变,注意到表达中的差异之后,表达和短语就难以被计算出它的相似度。此外,关于属性值的输入,因为每个用户可自由地输入属性值,所以应当存在着输入错误,例如错误的字母、省略的字母等,这使得相似度的计算更加困难。
此外,上述“基于链接参考来计算相似度的方法”具有如下问题:当两篇文章包含与相同话题相关的不同链接信息时,相似度可能被低估。例如,作为关于戏剧“零秒出手”的文章中所包括的链接信息,容易想到指出戏剧“零秒出手”的官方网站的链接信息,然而存在着到各种网站的更多的其他链接信息,例如到在线百科全书中的“零秒出手”项目的链接信息等等。
鉴于以上所述的,希望提供能够具有更高准确性地识别网络上设置的Web数据的话题的、新颖且改进的话题识别系统、话题识别装置、客户终端、程序、话题识别方法以及信息处理方法。
根据本发明的一个实施例,提供了一种话题识别系统,该话题识别系统包括:客户终端,该客户终端包括:链接信息提取单元,该链接信息提取单元用于提取网络上设置的Web数据中所包含的链接信息;以及通信单元,该通信单元用于发送由链接信息提取单元提取的链接信息,以及话题识别装置,该话题识别装置包括:收集单元,该收集单元用于收集与对象话题相关的Web数据的位置信息;存储单元,该存储单元用于与已由收集单元收集的、和相等对象话题相关的一条或多条位置信息相关联地存储相等话题识别信息;接收单元,该接收单元用于接收从客户终端的通信单元发送的链接信息;识别单元,该识别单元用于利用由接收单元接收的链接信息来从存储单元搜索位置信息,并且用于识别与搜索到的位置信息相关联的话题识别信息;发送单元,该发送单元用于向客户终端发送由识别单元识别的话题识别信息。
接收单元可计算所收集的位置信息中的每一个的重要度,并且确定每个位置信息的重要度是否超过了规定基准。并且存储单元可存储与被确定为重要度已超过规定基准的位置信息相关联的话题识别信息。
识别单元可从存储单元搜索与由接收单元接收的链接信息一致的位置信息,并且在没有找到与链接信息一致的位置信息的情况下搜索与链接信息部分地一致的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010546530.8/2.html,转载请声明来源钻瓜专利网。