[发明专利]一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法在审

专利信息
申请号: 201610572839.1 申请日: 2016-07-20
公开(公告)号: CN106202498A 公开(公告)日: 2016-12-07
发明(设计)人: 朱全银;辛诚;刘斌;许康;潘舒新;胡荣林;唐海波;孙青怡;周泓;李翔;赵阳;周蕾;肖绍章 申请(专利权)人: 淮阴工学院
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;H04L12/24
代理公司: 暂无信息 代理人: 暂无信息
地址: 223005 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法,本发明利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录,结合数据关联和统计方法,先对搜狗语料库中语料‑分类标签集和全体人员上网记录集进行预处理和频数统计,存储分类标签‑关键词‑词频集的计算中间结果,之后将人员的分类‑标签集与中间结果进行数据关联和统计,以此完成对人员网络行为习惯的量化,通过多层次的数据关联,区分、降低量化过程中的不确定性,达到提高数据量化的准确性、可靠性的目的。
搜索关键词: 一种 基于 分类 语料库 关键词 词频 记录 关联 网络 行为习惯 量化 方法
【主权项】:
一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法,其特征在于利用搜狗实验室的互联网分类语料库(SogouT)和全体人员上网记录,结合数据关联和统计方法,先对搜狗语料库中语料‑分类标签集和全体人员上网记录集进行预处理和频数统计,存储分类标签‑关键词‑词频集的计算中间结果,之后将人员的分类‑标签集与中间结果进行数据关联和统计,以此完成对人员网络行为习惯的量化;其中,包含语料库处理流程步骤A和关键词关联记录流程步骤B:语料库处理流程步骤A从步骤A1到步骤A12:步骤A1:设从搜狗实验室获取语料集CORP={CORP1, CORP2, …, CORPCORPN},设语料集总数为CORPN,设分类标签集为LABEL={LABEL1,LABEL2,…,LABELLABELN},设分类标签总数为LABELN,设语料‑分类标签集为CORPLAB={(CORPa1,LABELb1),(CORPa2,LABELb2),…,(CORPam,LABELbm)},设停用词集为STOPWORD={STOPWORD1,STOPWORD2,…,STOPWORDa},设全体人员上网记录集为RECORD={(RSTUrs1,RKEYrk1),(RSTUrs2,RKEYrk2),…,(RSTUrsf,RKEYrkf)},其中,RSTUrs1、…、RSTUrsf代表单个人员的唯一标识,RKEYrk1、…、RKEYrkf代表关键词,设全体人员上网记录总数为RECORDN;步骤A2:设全局关键词集为KEY,设全局关键词总数为KEYN,设全局分类标签‑关键词‑词频集为CATEKEYF,设人员唯一标识集为STUID,设人员总数为STUIDN,设全体人员的分类标签‑频数集为GSTUCATEF,设单个语料的关键词集为corpskey,设单个语料的关键词总数为corpskeyn,设单个语料的分类标签‑关键词‑词频集为skeyf,设单个人员的关键词集为stuskey,设单个人员的关键词总数为stuskeyn,设单个关键词的分类标签‑词频集为keycatef,设单个人员的分类标签‑频数集为stucatef;步骤A3:设语料集CORP当前语料的循环下标变量为i,当前语料对应的分类标签为label,其中,CORP是步骤A1中从搜狗实验室获取的语料集,并且循环下标变量满足i<=CORPN;步骤A4:从步骤A1中的语料与分类标签关系集中筛选出包含CORPi的分类标签集合,即,,其中,CORPi的下标来自步骤A3中的循环下标变量i,label来自步骤A3中当前语料CORPi对应的分类标签;步骤A5:利用步骤A1中停用词集STOPWORD={STOPWORD1, STOPWORD2, …, STOPWORDa},对步骤A3中的语料CORPi分词,形成语料CORPi的关键词集corpskey={corpskey1, corpskey2, …, corpskeyb};步骤A6:将步骤A5中生成的关键词集corpskey中的停用词去除,即,corpskey=corpskey‑STOPWORD={corpskeys1, corpskeys2, …, corpskeysb};步骤A7:更新步骤A2中的全局关键词集KEY,将步骤A6处理得出的corpskey与全局关键词集KEY进行并集运算,即,KEY=KEY∪corpskey={KEY1, KEY2, …, KEYc},再根据corpskey包含的关键词数量corpskeyn更新步骤A2中的全局关键词总数KEYN,即,KEYN=KEYN+corpskeyn;步骤A8:设步骤A3中的语料CORPi的分类标签‑关键词‑词频集为skeyf,统计语料CORPi的关键词集corpskey中关键词的词频,其中,设fk1, fk2, …, fkd为关键词在语料中出现的次数,并将结果按照分类标签‑关键词‑关键词词频的格式添加到分类标签‑关键词‑词频集skeyf中,即,skeyf={(label, KEY1, fk1), (label, KEY2, fk2),… ,(label, KEYd, fkd)};步骤A9:更新全局分类标签‑关键词‑词频集,即,CATEKEYF=CATEKEYF∪skeyf={(LABELl1, KEYck1, ff1), (LABELl2, KEYck2, ff2), …, (LABELle, KEYcke, ffe)},其中,全局分类标签‑关键词‑词频集CATEKEYF来自步骤A2;步骤A10:当步骤A3中的循环变量i大于全部语料集个数CORPN时,则执行步骤A11,否则,循环变量i的值增加1,即,i=i+1,执行步骤A4到步骤A9;步骤A11:执行步骤B;步骤A12:返回全体人员的分类标签‑频数集,即,GSTUCATEF={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})};关键词关联记录流程步骤B从步骤B1到步骤B9: 步骤B1:从全体人员上网记录集RECORD中提取出当前人员唯一标识集STUID,并计算出人员总数STUIDN,即,STUID=Π1(RECORD) ={STUID1,STUID2,…,STUIDg};步骤B2:设当前人员标识的下标循环变量为j,j<=STUIDN,其中,全体人员上网记录总数STUIDN来自步骤B1;步骤B3:设当前人员标识STUIDj对应的关键词集为stuskey,并统计人员STUIDj的关键词总数stuskeyn,即,{stuskey1, stuskey2, …, stuskeyh},其中,j是步骤B2中的循环变量;步骤B4:设当前关键词的下标循环变量为k,即,k<=stuskeyn,其中,stuskeyn 是步骤B3中当前人员标识STUIDj对应的stuskey所包含的关键词总数;步骤B5:从步骤B1中的全局分类标签‑关键词‑词频集CATEKEYF中筛选出关键词stuskeyk的分类标签‑词频集keycatef,即,={(LABEL1, fkl1), (LABEL2, fkl2), …, (LABELo, fklo)},其中,LABEL1 , LABEL2 , …, LABELo代表分类标签,fkl1, fkl2 , …, fklo分别代表标签LABEL1 , LABEL2 , …, LABELo所对应的频数;步骤B6:叠加关键词的分类标签‑词频记录keycatef中相同LABEL分类标签的词频,然后更新人员STUIDj的分类标签‑频数记录,即,fgkl1=fgkl1+fkl1, fgkl2=fgkl2+fkl2, …, fgklo=fgklo+fklo, stucatef={(LABEL1, fgkl1), (LABEL2, fgkl2), …, (LABELo, fgklo)},其中,LABEL∈{LABEL1 , LABEL, …, LABELo};步骤B7:当步骤B4中的循环变量k大于步骤B3中的当前人员标识STUIDj对应的stuskey所包含的关键词总数stuskeyn时,执行步骤B8,否则,循环变量k增加1,使k=k+1,执行步骤B5到步骤B6;步骤B8:更新全体人员的分类标签‑频数集GSTUCATEF,将GSTUCATEF与步骤B3中的STUIDj和步骤B5中的keycatef形成的元组做并集运算,即,GSTUCATEF=GSTUCATEF∪{(STUIDj, stucatef)}={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})},其中,GSTUCATEF来自步骤B1;步骤B9:当步骤B2中的循环变量j大于步骤B1中的人员总数STUIDN时,执行步骤A12,否则,循环变量j的值增加1,即,j=j+1,执行步骤B3到步骤B8。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610572839.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top