[发明专利]一种基于事件抽取的社交网络用户关系抽取方法有效
申请号: | 202010474094.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111651559B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 姜彦吉;孙宁;郭羽含;江中宇;王泽宇;张雨晴;田淞;孟巧巧 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9537;G06F40/211;G06F40/289;G06Q50/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事件 抽取 社交 网络 用户 关系 方法 | ||
1.一种基于事件抽取的社交网络用户关系抽取方法,包括以下步骤:
步骤1:获取社交网络数据中的文本信息,并存储到文本数据库中;
步骤2:对文本数据库中的文本数据进行预处理;对文本数据中的中文文本进行中文筛选与归一化处理,并对中文文本进行实体识别;
步骤3:对预处理后的文本数据进行三元组框架抽取;
步骤4:基于三元组框架的事件检测;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;
步骤4.1:将三元组框架在文本中分布的概率值作为突发值,并基于突发值获取的事件特征作为事件簇中心;
设定时间段D包含n个时间窗口,D={d1,d2,...,dn};每个文本内容为一个三元组框架集合T={f1,f2,...,fl},其中,l为文本中三元组框架的总数;在时间窗口d内计算文本中每个短语在所有三元组框架内作为任意子元素的概率,如下公式所示:
Ps,d~N(Ndps,Ndps(1-ps))
其中,N()表示二项分布,Nd表示为时间窗口d中所包含的文本数量,ps表示为任意时间窗口内观察到的包含短语s的文本的期望概率,Ps,d表示时间窗口d内短语s在三元组框架内作为任意子元素中的分布概率,也即短语s在窗口d中的突发值;则该短语所在三元组框架的突发值为三元组框架内所有短语的突发值之和;
选取文本中短语个数的t%作为事件的特征数量L,基于短语突发值,通过PageRank方法得到文本中所有短语的排名序列,并从排名序列中选取前L个具有高突发值的短语作为事件的特征S′={s1,s2,...,sm,...,sL},并将事件的特征作为特征聚类的多个事件簇中心;
步骤4.2:对三元组框架进行特征聚类,得到多个事件簇;
采用基于时序模型的相似度计算方法,在时间窗口d内,划分H个子时间窗口,计算三元组框架的任意子元素与作为事件簇中心的事件特征之间的相似度,如下公式所示:
其中,sim(sa,sm,d)表示在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值,w(sa,dh)与w(sm,dh)分别表示sa和sm在子时间窗口dh中的时序特征权重,表示sa和sm所在的文本与文本在子时间窗口dh中的文本相似值;
其中,f(sm,dh)表示在子时间窗口dh中,短语sm所出现的频数,表示为在时间窗口d中短语sm所出现的频数;
判断在时间窗口d中三元组框架的子元素sa与作为事件特征的短语sm的相似值sim(sa,sm,d)是否大于设定的阈值δ,若大于,则将该三元组框架的子元素sa划入事件特征sm作为事件簇中心的事件簇内;反之,则三元组框架的子元素sa不在该事件簇内;所得到的事件簇集合表示为set(d);
步骤5:用户关系抽取;根据步骤4所得到的事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010474094.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于微信小程序的云病历系统
- 下一篇:会计信息可比性测定方法