[发明专利]一种基于事件抽取的社交网络用户关系抽取方法有效
申请号: | 202010474094.1 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111651559B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 姜彦吉;孙宁;郭羽含;江中宇;王泽宇;张雨晴;田淞;孟巧巧 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9537;G06F40/211;G06F40/289;G06Q50/00 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李珉 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事件 抽取 社交 网络 用户 关系 方法 | ||
本发明提供一种基于事件抽取的社交网络用户关系抽取方法,涉及文本信息处理技术领域。该方法首先获取社交网络数据中的文本信息并进行预处理后进行三元组框架抽取;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;根据事件簇集合,判断两用户所发布的内容是否在同一事件簇中,若在,则两用户之间存在关系,形成用户对;利用非监督模型对用户之间的关系进行抽取,得到用户关系三元组。本发明方法提高了用户关系抽取的准确性以及实时性。
技术领域
本发明涉及文本信息处理技术领域,尤其涉及一种基于事件抽取的社交网络用户关系抽取方法。
背景技术
目前,社交网络逐渐成为人们生活中不可或缺的一部分,成为一种超越新闻、报纸、论坛等的消息传播工具,扩大了社会舆情的范围,带来了信息生产与传播方式的新革命。据大数据分析,2020年中国网民数量达到11亿。由此可知,越来越多的网民用户通过微博、微信平台来发表与传播各种话题,而不同的话题与用户之间也存在着一定的联系。
微信、微博等社交平台对用户进行关系抽取主要是根据不同用户之间的互粉情况、转发、以及评论热点事件等文本信息来提取用户的关系特征,从而获得用户之间的关系。然而现存的信息抽取方法并不能采集到完整的用户文本信息,准确性也相对较低,不能准确的推导出在一定时间段内用户之间的关系。
因此,需要一种新的用户关系抽取方法,进一步提高用户关系抽取的准确性以及实时性。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于事件抽取的社交网络用户关系抽取方法,抽取通过爬取社交网络所获得信息的数据特征,实现更有效的挖掘社交网络用户关系。
为解决上述技术问题,本发明所采取的技术方案是:一种基于事件抽取的社交网络用户关系抽取方法,包括以下步骤:
步骤1:获取社交网络数据中的文本信息,并存储到文本数据库中;利用已知的用户id,批量爬取用户的社交网络数据,并从社交网络数据中获取用户所发布的文本信息,存储到文本数据库中;同时,针对社交网络中的图片及视频,通过OCR识别工具来获取图片或视频中的文本信息,并存储到文本数据库中;
步骤2:对文本数据库中的文本数据进行预处理;对文本数据中的中文文本进行中文筛选与归一化处理,并对中文文本进行实体识别;
采用语言检测方法去除文本数据中的非中文文本,利用基于文本抽取的单词级归一化词典来对文本中的单词进行归一化,得到规范词以及对应的规范形式;再采用基于统计机器学习的方法建立LSTM+CRF模型对原始文本信息进行训练,再利用训练好的LSTM+CRF模型识别出文本中的实体;
步骤3:对预处理后的文本数据进行三元组框架抽取;利用三元组抽取工具抽取文本数据中的三元组框架;
首先从文本中抽取谓语动词,其次,再抽取与谓语动词相关的包含主语和宾语的实体对;最后,针对抽取到的三元组框架进行筛选,将抽取到的三元组框架与MicrosoftWeb N-gram在线服务匹配,去除掉不满足三元组框架语法约束的噪声;
步骤4:基于三元组框架的事件检测;将多个三元组框架看作是一个事件,三元组框架中的任意子元素集看作是三元组框架的子集,用于表示事件的特征;通过三元组框架的突发值来选择事件的特征,进而确定多个事件簇中心;再对三元组框架进行特征聚类,得到多个事件簇,构成事件簇集合;
步骤4.1:将三元组框架在文本中分布的概率值作为突发值,并基于突发值获取的事件特征作为事件簇中心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010474094.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于微信小程序的云病历系统
- 下一篇:会计信息可比性测定方法