[发明专利]个人大数据管理中层次概念向量化增量处理方法有效
申请号: | 201611154347.7 | 申请日: | 2016-12-14 |
公开(公告)号: | CN106682129B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 杨良怀;汪庆顺;庄慧;范玉雷;龚卫华;方文菲 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310014 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 个人大数据管理中层次概念向量化增量处理方法,含以下步骤:1)系统初次运行时将全部概念向量化,对全部分枝节点进行概念向量合并操作。2)用户操作概念树时执行:2.1)获取被操作节点及其父节点的概念向量及词总数;2.2)依据公式修改父节点的概念向量;2.3)以父节点为被操作节点从2.1)开始递归执行直到根节点;2.4)更新逆文档频率向量。3)误差累计到一定程度执行:3.1)获取当前逆文档频率向量和逆文档频率初始值向量;3.2)批量更新向量空间中所有向量权重;3.3)更新逆文档频率初始值向量。本发明实现了个人大数据管理中层次概念向量化增量计算方法,能够快速调整概念空间中的概念向量,提高执行效率。 | ||
搜索关键词: | 个人 数据管理 层次 概念 量化 增量 处理 方法 | ||
【主权项】:
一种个人大数据管理中层次概念向量化增量处理方法,包括向量空间初始化阶段与向量增量计算阶段,其中向量空间初始化阶段可进一步细分为预处理阶段以及概念向量合并阶段,向量增量计算阶段可分为增量计算过程和误差补全过程;所述预处理阶段将概念树上的每一个节点的概念进行向量化表述为一个概念向量,并记录各个节点的词总数及各特征项的逆文档频率;所述概念向量合并阶段包括在计算机上运行以下步骤:1)将概念树的根节点作为目标节点;2)对于目标节点,获取其全部m个子节点C1,C2,…,Cm;3)获取C1,C2,…,Cm对应的概念向量VC1,VC2,…,VCm以及目标节点对应的概念向量V;(3.1)若有子节点Ci为分枝节点且其对应的概念向量未合并,以Ci为目标节点从步骤(2)开始对其概念向量进行合并。4)计算目标节点及其全部子节点的词总数之和L。在向量空间中创建一个概念向量Vnew;5)假设向量空间中共有n个不同的特征项T1,T2,…,Tn,则给定概念向量V,其对应特征项Ti的权重记为V.Wi,其中对应词总数记为LV,VCi的总词数记为LCi;计算Vnew.Wi=(V.Wi*LV+VC1.Wi*LC1+VC2.Wi*LC2+…+VCm.Wi*LCm)/L,其中i=1,2,…,n。6)将目标节点对应的概念向量更改为Vnew,词总数更改为L。所述增量计算过程在用户每一次对概念树进行更新操作后立即执行。对概念树进行的更新操作包括添加、删除或移动概念节点,其中移动概念节点视为先删除后添加两步操作。对于添加或删除节点,在计算机上运行以下步骤:A1.将被添加或删除的节点Nc作为目标节点;A2.查找目标节点的父节点Np。若Np不存在,结束本次增量计算过程。A3.获取Nc对应的概念向量Vc及词总数Lc,Np对应的概念向量Vp及词总数Lp。A4.假设向量空间中共含有n个不同的特征项,分别记为T1,T2,…,Tn,相应权重分量记为W1,W2,…,Wn。对Vp的权重执行以下操作:(A4.1)若为添加节点操作,Vp.Wi=(Lp*Vp.Wi+Lc*Vc.Wi)/(Lp+Lc),i=1,2,…,n,将Np的词总数更改为(Lp+Lc);(A4.2)若为删除节点操作,Vp.Wi=(Lp*Vp.Wi‑Lc*Vc.Wi)/(Lp‑Lc),i=1,2,…,n,将Np的词总数更改为(Lp‑Lc)。A5.将Np作为目标节点,从(2)开始执行。所述误差补全过程可细分为逆文档频率误差累积向量更新部分与特征项权重批量更新部分。在整个概念空间中有几个全局值,包括逆文档频率向量Vidf和逆文档频率初始值向量Vini。假设向量空间中共有n个不同的特征项,分别记为T1,T2,…,Tn。给定概念向量V,其对应特征项Ti的权重记为V.Wi;对于特征项Ti,包含Ti的概念总数记为Ti.F。其中逆文档频率误差累积向量更新部分在每次增量计算过程结束后立即执行,包括在计算机上执行以下过程:D1.获取当前概念树中的总概念数量A,逆文档频率向量Vidf,逆文档频率初始值向量Vini。D2.对Vidf与Vini的权重执行以下操作:(D2.1)若Vidf.Wi==0,Vini.Wi=log((A/(Ti.F+0.01))+0.01),i=1,2,…,n;(D2.2)Vidf.Wi=log((A/(Ti.F+0.01))+0.01),i=1,2,…,n;所述特征项权重批量更新部分将在若干次增量计算过程后执行,不需要在某次增量计算完成后立即执行,其频率可以根据需求更改,其执行过程包括在计算机上执行以下步骤:E1.获取当前的逆文档频率向量Vidf,逆文档频率初始值向量Vini。E2.对概念树中的每一个节点N,其对应的概念向量V执行操作:V.Wi=V.Wi*Vidf.Wi/Vini.Wi,i=1,2,…,n。E3.Vini.Wmi=Vidf.Wi,i=1,2,…,n。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611154347.7/,转载请声明来源钻瓜专利网。