[发明专利]数据处理方法及装置有效
申请号: | 201610586683.2 | 申请日: | 2016-07-22 |
公开(公告)号: | CN106202530B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 杜军平;梁美玉;宋阳;候立莎 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 朱文杰 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种数据处理方法及装置,所述方法包括:获取资讯,将资讯加入资讯集合中;将资讯集合中的一篇资讯作为待处理文档;若均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量;否则,根据预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,分别计算待处理文档对应的特征向量与话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;将待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕。所述方法考虑了获取待处理文档的第一时间以及待处理文档中事件发生的第二时间,提高了话题模型的精确度。 | ||
搜索关键词: | 数据处理 方法 装置 | ||
【主权项】:
1.一种数据处理方法,其特征在于,所述方法包括:获取资讯,将所述资讯加入资讯集合中;将所述资讯集合中的一篇资讯作为待处理文档;若所述资讯集合中的资讯均为未处理文档,根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;若所述资讯集合中至少有一篇资讯为已处理文档,根据所述预设规则将待处理文档映射成对应的特征向量,根据获取待处理文档的第一时间以及所述待处理文档中事件发生的第二时间,分别计算所述待处理文档对应的特征向量与所述话题模型集合中的各个已检测话题对应的向量的相似度,选取最大相似度值进行判断;若所述最大相似度值大于修正阈值,则所述待处理文档与所述最大的相似度值对应的已检测话题相似,更新所述最大的相似度值对应的已检测话题对应的向量;若所述最大的相似度值小于动态阈值,则根据预设规则将待处理文档映射成对应的特征向量,将所述特征向量作为已检测话题对应的向量,加入话题模型集合;将所述待处理文档的下一篇文档作为待处理文档,直到资讯集合中的全部资讯全部处理完毕;其中,所述预设规则包括:将所述待处理文档进行分词处理;根据第一公式,获取每个分词对应的第一参数值,根据所述第一参数值的大小,选择第一预设个数的分词加入待选择特征词集合;根据第二公式,获取所述待选择特征词集合中每个分词对应的第二参数值,根据所述第二参数值的大小,选择第二预设个数的分词作为特征词;计算待处理文档对应的所述特征词的权重,将所述权重作为待处理文档映射成对应的特征向量;其中,所述第一公式为如下公式:
N表示训练集中的文档数量,A表示分词t出现在类别ci中的文档数量;B表示分词t出现在非类别ci中的文档数量;C表示分词t没有出现在类别ci中的文档数量;D表示分词t没有出现在非类别ci中的文档数量;CHI(t,ci)即每个分词对应的第一参数值;f(TFci)为修正因子;其中,所述第二公式采用LDA算法中的计算公式:![]()
表示词汇w分配给主题j的频数,
表示分配给主题j的所有词汇数,
表示文本d中分配给主题j的词汇数,n(d)表示文本d中所有分配主题的词汇数,W为固定词汇表中的词汇总数,T表示主题数目,α和β作为多项式分布φ和θ的共轭先验。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610586683.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息采集方法和装置
- 下一篇:基于云计算的公共交通服务查询系统