[发明专利]一种基于社交网络原理的词汇社交网络分析方法有效
申请号: | 201710936365.9 | 申请日: | 2017-10-10 |
公开(公告)号: | CN107783948B | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 王峰;杭波;谷琼;吴中博;屈俊峰;赵永标 | 申请(专利权)人: | 湖北文理学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/117;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 魏波 |
地址: | 441053 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社交 网络 原理 词汇 网络分析 方法 | ||
1.一种基于社交网络原理的词汇社交网络分析方法,其特征在于,包括以下步骤:
步骤1:首先定义词汇关系、平行关系、隶属关系、词汇节点对的社交角色、贡献型词汇、索取型词汇、孤岛型词汇、词汇网络结构、扩张型词汇网络、萎缩型词汇网络、平衡型词汇网络、孤立型词汇网络;
所述词汇关系,描述以词汇属性为网络节点、以上下文语义为边所构成的词汇社交网络中各节点间的关系,记为关系R;词汇社交网络关系R包括:平行关系Rp和隶属关系Ra;其中,平行关系Rp包括直接关联关系Rdc和间接关联关系Ric;R=Rp∪Ra,Rp=Rdc∪Ric;
所述平行关系,表明词汇社交网络中的某两个词汇节点所构成的节点对之间的关系平等且相关,记为Rp;其中,语义关系之间具有明确指代关系的节点对具有直接关联关系,否则具有间接关联关系;
所述隶属关系,表明词汇社交网络中的某两个词汇节点所构成的节点对之间存在依赖关系,记为Ra;
所述词汇节点对的社交角色,在词汇社交网络中,节点对间存在包括贡献、索取和孤立在内的“社交行为”;
所述贡献型词汇,用于形容、修饰或连接其它词汇,并专为其它词汇服务的词汇节点,记为Vc;
所述索取型词汇,以被服务的词汇形式存在,记为Va;
所述孤岛型词汇,与其它任何词汇间鲜有交互,这类词汇通常表现为生僻字或生僻词,记为Vi;
所述词汇网络结构,用于描述随时间变化的词汇社交网络的变化趋势,记为Vns;词汇网络结构包括:扩张型词汇网络Vns-e、萎缩型词汇网络Vns-a、平衡型词汇网络Vns-p和孤立型词汇网络Vns-i,Vns={Vns-e,Vns-a,Vns-p,Vns-i};
所述扩张型词汇网络,表明在特定时间段内,某词汇社交网络的变化趋势为扩张状态;其直接变现为该词汇社交网络中的节点数目在此段时间段内增多;
所述萎缩型词汇网络,表明在一定时间段内,某词汇社交网络的变化趋势为萎缩状态;其直接变现为该词汇社交网络中的节点数目在此段时间段内减少;
所述平衡型词汇网络,表明在一定时间段内,某词汇社交网络的变化趋势为平衡状态;其直接表现为该词汇社交网络中的节点数目在此段时间段内保持不变;
所述孤立型词汇网络,表明在一定时间段内,某词汇社交网络与其它社交网络之间暂无交互行为;其直接表现为词汇社交网络中的所有节点在此段时间段内仅存在内部节点交互行为,而暂无任何外部交互;
步骤2:构造词汇社交网络;
步骤2的具体实现包括以下子步骤:
步骤2.1:首先对文本根据上下文语义进行拆分,形成单个词汇组合;
步骤2.2:删除与词汇社交网络构建无关的词汇;
步骤2.3:对文本内容进行标注和排序;
步骤2.4:将对已标注的文本内容进行编码;
步骤2.4中,是基于流量树对已标注的文本内容进行编码,所述流量树是在层次树的结构中加入流量信息,流量的方向即层次树中的实线箭头所指方向,同一层次的不同词汇节点若存在关联关系采用虚线进行连接;
步骤3:词汇社交网络的相关计算;
步骤3的具体实现包括以下子步骤:
步骤3.1:定义流量树、遍历模式、核心节点、度与词汇社交网络、子网类型;
所述流量树,记为T,用进行表示;其中,i表示树中词汇节点的编号,j表示树中词汇节点所在的层次,M表示遍历流量树的模式;
所述遍历模式包括顺序模式、逆序模式和随机模式;所述顺序模式,按编号增序进行遍历;所述逆序模式,按编号减序进行遍历;所述随机模式R,按编号随机进行遍历;其中,随机模式的访问方式由随机函数确定,N表示随机函数计算所得的节点编号,rand(0,1)表示计算机随机产生的0-1之间的随机数,Nmax和Nmax分别表示遍历编号的最大节点编号和最小节点编号;
所述核心节点,为词汇社交网络中各节点度数中的极大值节点;其中,极值下限由阈值进行确定,即节点度数大于阈值的节点均可被认定为核心节点;而通过核心节点的数目可确定词汇社交网络中的子网划分规则,其中,阈值记为Vd-γ;
所述度与词汇社交网络,词汇社交网络中节点的度分为入度和出度,利用入度和出度的比例可确定不同的子网类型;其中,入度和出度分别记为Vd-in和Vd-out;
所述子网类型,用于描述词汇社交网络中各子网内部的核心节点的入度和出度的比例情况;
步骤3.2:核心节点度与词汇社交网络中子网类型确定;
具体包括以下子步骤:
步骤3.2.1:通过计算节点的度并结合度的阈值设定来确定核心节点;
步骤3.2.2:根据核心节点的个数来确定子网的个数,有多少个核心节点就划分多少个子网;
步骤3.2.3:在确定子网个数之后,分别计算各子网中核心节点的入度和出度,根据入度出度的比值来确定词汇社交网络中各子网的类型,将子网内部的入度出度比记为将子网间的入度出度比记为
由核心节点的入度出度比来确定词汇社交网络中的子网类型,孤岛型除外的子网类型的分类规则如下公式(1)所示:
孤岛型除外的子网类型的分类规则通过计算子网间的入度出度比实现,子网间的入度出度比如下公式2所示:
其中,IW为入度出度比的计算标识,意为子网间入度出度比;i为节点编号,n为参与计算的网间子网节点的数目;若其中和分别表示参与计算的网间节点的入度和与出度和,则表明某子网与其它子网之间无任何交互行为,由此便可认定该子网为孤岛型;
通过子网内的交互度求和的变化量来确定子网的发展变化趋势,其中子网内的入度出度比如公式(3)所示:
其中,NW为入度出度比的计算标识,意为网内入度出度比,j为节点编号,m为参与计算的网内子网节点的数目;
子网的发展变化趋势确定规则如下公式(4)所示:
若其中和分别表示参与计算的网间节点的入度和与出度和,由此则表明某子网与其它子网在某时间段(t1-t2)之间无任何交互行为,由此便可认定该子网的发展趋势为孤立型子网。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北文理学院,未经湖北文理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710936365.9/1.html,转载请声明来源钻瓜专利网。