[发明专利]非监督检测及在文本数据中字簇集的分类有效

专利信息
申请号: 201280055869.5 申请日: 2012-11-09
公开(公告)号: CN103946840B 公开(公告)日: 2017-09-05
发明(设计)人: 汤姆斯·拉尔森;麦斯·林格伦 申请(专利权)人: 凯洛斯未来集团公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 浙江杭州金通专利事务所有限公司33100 代理人: 刘晓春,王雪
地址: 瑞典斯德*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种从多个源获得的数据集分类的装置,包括符号频率确定单元(24),其确定第一数据集集合中的符号的出现频率和第二数据集集合中的符号的出现频率;重要性确定单元(26),其基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最高有效符号;分组单元(28),其根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组,以及等级排列单元(30),其根据等级排列方案排列与符号组相关的数据集的等级。
搜索关键词: 监督 检测 文本 数据 中字簇集 分类
【主权项】:
一种将从多个源(14、16、18、20)获得数据集DS1、DS2、DS3、…、DSn分类的方法,所述数据集由符号S1、S2、S3、…、Sm组成,该方法包括:确定第一数据集集合C中的符号的出现频率;确定第二数据集集合中的符号的出现频率;基于第一集合中的出现频率和第二集合中的出现频率确定第二集合中的最重要的符号S1、S2;所述确定第二集合中的最重要的符号基于:一个符号在第二集合中出现的概率p1,jsc(wjsc),而p1,jsc(wjsc)则是在给定了相同符号在第一集合出现的概率的条件下,利用如下公式计算得到,wjsc∈Bin(nsc,p0j)p1,jsc(k)=nsc!k!(nsc-k)!p0jk(1-p0j)(nsc-k)]]>其中nsc是第二集合中的所使用符号的数目,wjsc是符号j已在第二集合中使用的次数,p0j是从第一集合取出的特定符号是符号j的概率,(1‑p0j)是所讨论的符号不为符号j的概率,并且p1,jsc(k)是在假定符号j发生的次数遵循具有给定参数的二项式分布的情况下,符号j在第二集合中出现k次的概率,根据这些最重要的符号在相同数据集中的出现而将这些最重要的符号分组成若干组G,以及使用等级排列方案排列与符号组相关的数据集的等级,其中,第一集合中符号频率的确定不需要使用数据集的任意前述分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凯洛斯未来集团公司,未经凯洛斯未来集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201280055869.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top