[发明专利]一种自然语言信息处理方法及系统在审
申请号: | 201710407923.2 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107273461A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 张爱国 | 申请(专利权)人: | 广州诚予国际市场信息研究有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利商标代理有限公司44202 | 代理人: | 郝传鑫 |
地址: | 510000 广东省广州市越秀区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自然语言 信息处理 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种自然语言信息处理方法及系统。
背景技术
随着信息网络技术的发展,互联网中出现越来越多形式各异的数据资源。从海量异构的网络数据中准确高效地发现并获取用户所需的数据信息,需要对网络数据进行有效地组织管理。
信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。信息检索的涵义满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体包括人和检索工作单位,统称为信息检索系统Information Retrieval System,简称IRS。
如何对互联网中的各种信息进行分析处理,得到特定行业的分析数据成为亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种自然语言信息处理方法,包括:
获取原始网页;
对所述原始网页进行分析,提取网页中的自然语言信息;
从所述自然语言信息中获取指定行业的文字信息;
对所述文字信息进行清理;
对清理后的所述文字信息进行结构化处理;
根据结构化处理后的信息对指定行业进行分析。
进一步地,从所述自然语言信息中获取指定行业的文字信息之后,还包括:
将所述文字信息存储到Hadoop系统中。
进一步地,所述对所述文字信息进行清理,包括:
删除文字信息中的广告信息。
进一步地,所述对清理后的所述文字信息进行结构化处理之后,还包括:
将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
进一步地,所述根据结构化处理后的信息对指定行业进行分析包括:
从Hbase数据库中获取结构化处理后的信息;
从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
本发明还提供了一种自然语言信息处理系统,包括:
网页获取模块,用于获取原始网页;
自然语言提取模块,用于对所述原始网页进行分析,提取网页中的自然语言信息;
指定信息提取模块,用于从所述自然语言信息中获取指定行业的文字信息;
清理模块,用于对所述文字信息进行清理;
结构化处理模块,用于对清理后的所述文字信息进行结构化处理;
分析模块,用于根据结构化处理后的信息对指定行业进行分析。
进一步地,还包括:
第一存储模块,用于将所述文字信息存储到Hadoop系统中。
进一步地,所述清理模块包括:
广告删除单元,用于删除文字信息中的广告信息。
进一步地,还包括:
第二存储模块,用于将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
进一步地,所述分析模块包括:
获取单元,用于从Hbase数据库中获取结构化处理后的信息;
分析单元,用于从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
综上所述,本发明通过获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明使用成熟的大数据存储系——Hadoop系统、Hbase数据库,为大数据的存储、操作提供便捷的服务。采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州诚予国际市场信息研究有限公司,未经广州诚予国际市场信息研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710407923.2/2.html,转载请声明来源钻瓜专利网。