[发明专利]非监督检测及在文本数据中字簇集的分类有效
申请号: | 201280055869.5 | 申请日: | 2012-11-09 |
公开(公告)号: | CN103946840B | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 汤姆斯·拉尔森;麦斯·林格伦 | 申请(专利权)人: | 凯洛斯未来集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 浙江杭州金通专利事务所有限公司33100 | 代理人: | 刘晓春,王雪 |
地址: | 瑞典斯德*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种从多个源获得的数据集分类的装置,包括符号频率确定单元(24),其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率;重要性确定单元(26),其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号;分组单元(28),其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组,以及等级排列单元(30),其根据等级排列方案排列与符号组相关的数据集的等级。 | ||
搜索关键词: | 监督 检测 文本 数据 中字簇集 分类 | ||
【主权项】:
一种将从多个源(14、16、18、20)获得数据集DS1、DS2、DS3、…、DSn分类的方法,所述数据集由符号S1、S2、S3、…、Sm组成,该方法包括:确定第一数据集集合C中的符号的出现频率;确定第二数据集集合中的符号的出现频率;基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2;所述确定第二集合中的最重要的符号基于:一个符号在第二集合中出现的概率p1,jsc(wjsc),而p1,jsc(wjsc)则是在给定了相同符号在第一集合出现的概率的条件下,利用如下公式计算得到,wjsc∈Bin(nsc,p0j)p1,jsc(k)=nsc!k!(nsc-k)!p0jk(1-p0j)(nsc-k)]]>其中nsc是第二集合中的所使用符号的数目,wjsc是符号j已在第二集合中使用的次数,p0j是从第一集合取出的特定符号是符号j的概率,(1‑p0j)是所讨论的符号不为符号j的概率,并且p1,jsc(k)是在假定符号j发生的次数遵循具有给定参数的二项式分布的情况下,符号j在第二集合中出现k次的概率,根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G,以及使用等级排列方案排列与符号组相关的数据集的等级,其中,第一集合中符号频率的确定不需要使用数据集的任意前述分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凯洛斯未来集团公司,未经凯洛斯未来集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201280055869.5/,转载请声明来源钻瓜专利网。
- 上一篇:房门底缝自动封闭装置
- 下一篇:用于实现多级别存储器分级体系的设备和方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置