[发明专利]一种面向新闻的中文食品安全新闻事件信息自动抽取方法在审
申请号: | 201810427945.X | 申请日: | 2018-05-07 |
公开(公告)号: | CN108846018A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 陈瑛;程曦瑶;侯文俊 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;吴欢燕 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 食品安全 知识库 新闻语料 地理信息 构建 网络新闻 新闻事件 种类信息 自动抽取 语料库 事件发生地点 文本分类模型 可视化技术 统计信息 食品信息 事件发生 统计结果 文本分类 中文 维度 统计 直观 采集 网络 展示 | ||
本发明涉及一种面向新闻的中文食品安全新闻事件信息自动抽取方法,包括如下步骤:S1步骤:采集网络新闻构建食品新闻语料库;整理中国国内地理信息知识库,构建地理信息知识库;从网络中收集食品种类信息,构建食品种类知识库;S2步骤:利用文本分类模型对食品新闻语料库的新闻语料进行文本分类,得到食品安全新闻语料;S3步骤:首先对所述食品安全新闻语料中事件发生时间进行提取,其次,利用地理信息知识库对所述食品安全新闻语料中事件发生地点进行提取,最后,利用食品种类知识库对所述食品安全新闻语料中涉及到的食品名称及种类信息进行提取;S4步骤:对所述提取到的时间、地点和食品信息进行统计;S5步骤:将所述时间、地点和食品统计信息利用可视化技术进行展示。本发明能够准确地从网络新闻中提取出食品安全事件的时间、地点和食品种类这三个维度的信息,并对这些信息进行统计,最终将统计结果进行直观地显示。
技术领域
本发明涉及自然语言处理领域,特别是涉及一种面向新闻的中文食品安全新闻事件信息自动抽取方法。
背景技术
随着互联网信息爆炸式增长和传播,人类社会已经进入信息极度丰富的时代。由于食品安全关系到大众自身的健康和生命,所以在各种网络信息中,食品安全事件已成为大众关注的焦点。从政府监管角度来说,一旦有涉及食品安全的负面事件发生,政府希望能够在第一时刻得到该消息,并在最短的时间内降低其负面影响。因此,如何自动从网络中提取、分析这些食品安全事件是食品安全监管的关键问题。
由于同一话题信息往往于不同的时间发布在不同的网络平台上,不便于人们全面了解信息。在这背景下,如何利用自然语言处理技术,从海量文本数据中自动提取出目标信息显得尤为必要。另外如何将目标信息清晰的呈现给用户也是值得考虑的。由此,针对食品安全事件处理的具体需求,本发明提出一个面向网络新闻的食品安全事件自动抽取与可视化分析方法,其综合利用自然语言处理领域的文本分类技术和信息抽取技术从海量网络新闻中自动提取出食品安全事件相关信息。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是提供一种面向新闻的中文食品安全新闻事件信息自动抽取方法,能够从海量网络新闻中自动提取出食品安全事件相关信息,解决了人工提取食品安全事件信息费时费力的问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种面向新闻的中文食品安全新闻事件信息自动抽取方法,所述方法包括以下步骤:
步骤S1:采集网络新闻构建食品新闻语料库;整理中国国内地理信息知识库,构建地理信息知识库;从网络中寻找食品种类信息构建食品种类知识库;
步骤S2:利用文本分类模型对食品新闻语料库的新闻语料进行文本分类,得到食品安全新闻语料;
步骤S3:首先对所述食品安全新闻语料中事件发生时间进行提取,其次,利用地理信息知识库对所述食品安全新闻语料中事件发生地点进行提取,最后,利用食品种类知识库对所述食品安全新闻语料中的食品名称进行提取;
步骤S4:对所述提取到的时间、地点和食品信息进行统计;
步骤S5:将所述时间、地点和食品统计信息利用可视化技术进行展示。
进一步的,步骤S1具体包括:
从食品新闻网站(食品伙伴网)收集食品新闻,提取其中的标题、日期、来源、摘要、正文等信息,采用统一的xml格式保存到数据库中,构建食品新闻语料库;
整理中国国内地理信息知识库,采用树形结构,按照省、市、县、街道的分级格式存储到数据库中,构建地理信息知识库;
从网络中获取常见食品名称及其种类信息,根据QS标准将食品分为33类,将所述获取到的食品名称及种类信息按照这33大类进行分类,构建食品种类知识库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810427945.X/2.html,转载请声明来源钻瓜专利网。