[发明专利]基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统有效
申请号: | 201610716109.4 | 申请日: | 2016-08-24 |
公开(公告)号: | CN107783973B | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 何超;梁颖琪;车慧诗 | 申请(专利权)人: | 慧科讯业有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/953;G06F16/28 |
代理公司: | 北京市君合律师事务所 11517 | 代理人: | 王昭林;唐宇 |
地址: | 中国香港湾仔告士打道1*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 行业 知识 图谱 数据库 互联网 媒体 事件 进行 监测 方法 装置 系统 | ||
1.一种构建行业知识图谱数据库的方法,其特征在于,包括以下步骤:
步骤101,从数据源获取一个或多个特定行业的行业数据,所述行业数据包括互联网媒体数据;
步骤102,对所述行业数据进行数据处理,以提取与所述行业相关的实体以及对应的实体属性和/或实体关系,并且对所述互联网媒体数据进行事件检测、事件评价和筛选,以提取与所述行业相关的特定媒体事件,其中,事件检测包括:对所述互联网媒体数据进行话题分类,以获得针对特定话题的内容;从获得的内容中识别涉及的实体;对所获得的内容和所识别的实体进行情感分析,并且基于情感分析的结果对所获得的内容进行过滤;基于过滤后的内容进行事件发现,以对媒体事件进行聚类并发现新的媒体事件;
步骤103,对所提取的实体进行语义消歧和实体链接,基于所提取的所述特定媒体事件以及所述实体、实体属性和/或实体关系构建所述行业知识图谱数据库。
2.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:从第三方行业数据库获取结构化行业数据,所述结构化行业数据包括多个字段;
所述步骤102还包括:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述结构化行业数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系生成所述行业知识图谱数据库。
3.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:利用网络爬虫技术,从互联网数据源获取与行业相关的数据,所述互联网数据源包括非结构化或半结构化数据源;
所述步骤102还包括:利用自然语言处理中的信息抽取技术,对所述与行业相关的数据进行实体识别和关系抽取,以提取所述实体、实体属性和/或实体关系;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
4.根据权利要求1所述的方法,其特征在于,
所述步骤101还包括:利用应用程序接口(API)以查询方式从互联网数据源获取与行业相关的数据,所述互联网数据源包括开放式数据源;
所述步骤102还包括:在提取与所述行业相关的实体以及对应的实体属性和/或实体关系之前,对所述与行业相关的数据进行数据清洗以及抽取-转换-加载(ETL)处理;
所述步骤103还包括:基于所提取的实体、实体属性和/或实体关系对所述行业知识图谱数据库进行补充或更新。
5.根据权利要求1所述的方法,其特征在于,
所述步骤101进一步包括:利用应用程序接口(API)或网络爬虫技术,从互联网数据源获取与行业相关的互联网媒体数据;
所述步骤102进一步包括:从所述互联网媒体数据中识别所述特定媒体事件对应的直接相关实体;
所述步骤103进一步包括:基于所述特定媒体事件以及对应的直接相关实体,对所述行业知识图谱数据库进行补充,其中,所述特定媒体事件作为抽象实体被补充到所述行业知识图谱数据库中。
6.根据权利要求5所述的方法,其特征在于,在所述步骤102中进一步通过以下方式中的至少一种提取与所述特定媒体事件对应的直接相关实体:
基于自然语言处理中的实体识别从文本数据中识别实体;
基于图像或视频识别处理从图像或视频数据中识别实体;或者
基于语音识别处理从音频或视频数据中识别实体。
7.根据权利要求3-5中任一项所述的方法,其特征在于,所述步骤103包括:对所提取的实体进行语义消歧和实体链接,以识别所述实体在行业知识图谱数据库中的对应实体。
8.根据权利要求7所述的方法,其特征在于,所述对所提取的实体进行语义消歧和实体链接的步骤进一步通过以下方式中的至少一种实现:
基于实体知识,对每个所提取的实体指代逐一独立地进行语义消歧和实体链接;
基于主题一致性假设,利用候选实体在知识库中的关联,对所提取的实体指代进行一致性地语义消歧和实体链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧科讯业有限公司,未经慧科讯业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610716109.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工业清洗剂
- 下一篇:一种不锈钢氧化皮无三酸清洗剂及其清洗方法