[发明专利]基于神经网络半监督学习的互联网大数据文本精准挖掘引擎在审
申请号: | 201711057863.2 | 申请日: | 2017-10-23 |
公开(公告)号: | CN109697225A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 陈琳;马杲灵;杜华飞;任渝 | 申请(专利权)人: | 贵州双龙数联科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550002 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于神经网络半监督学习的互联网大数据文本精准挖掘引擎技术,基于互联网大数据服务平台实现,互联网大数据服务平台包括本地客户端、文本精准挖掘系统与存储数据库;文本精准挖掘系统既网页抓取系统,能提取并判别实体对象,该方法具体包括以下步骤:1、网页抓取;2、结构化文本内容;3、提取实体对象;4、计算实体对象属于主题的概率;5、存储入数据库。利用基于互联网大数据网页内容提取技术,在识别网页的同时快速抓取网页信息、提取实体对象,实现对实体对象的快速判别,为大数据分析提供了保障,无需软硬件资源,满足了中小企业、个人用户对大数据分析服务低成本、定向化和个性化的要求。 | ||
搜索关键词: | 大数据 实体对象 互联网 文本 半监督学习 服务平台 神经网络 挖掘系统 网页抓取 网页内容提取 抓取 存储数据库 结构化文本 软硬件资源 分析服务 个人用户 计算实体 网页信息 引擎技术 低成本 客户端 挖掘 引擎 个性化 数据库 存储 网页 中小企业 概率 分析 | ||
【主权项】:
1.基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其主要特征包括以下几点:S1.网页抓取:获取网页源码,去除干扰词及标签,统一标点符号的编码;S2.关系结构化网页内容:根据网页HTML标签之间的层级关系结构化网页文本内容;S3.提取实体对象:根据预先建立的主题词典,近邻搜索结构化的网页文本,提取出主题相关的实体对象;S4.计算实体对象属于主题的概率:提取出预定义的人工特征,使用神经网络判断实体的对象与主题的相关度;S5.存储结果到数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州双龙数联科技有限公司,未经贵州双龙数联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711057863.2/,转载请声明来源钻瓜专利网。