[发明专利]基于神经网络半监督学习的互联网大数据文本精准挖掘引擎在审

申请号：	201711057863.2	申请日：	2017-10-23
公开（公告）号：	CN109697225A	公开（公告）日：	2019-04-30
发明（设计）人：	陈琳;马杲灵;杜华飞;任渝	申请（专利权）人：	贵州双龙数联科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	550002 贵州省贵阳市***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种基于神经网络半监督学习的互联网大数据文本精准挖掘引擎技术，基于互联网大数据服务平台实现，互联网大数据服务平台包括本地客户端、文本精准挖掘系统与存储数据库；文本精准挖掘系统既网页抓取系统，能提取并判别实体对象，该方法具体包括以下步骤：1、网页抓取；2、结构化文本内容；3、提取实体对象；4、计算实体对象属于主题的概率；5、存储入数据库。利用基于互联网大数据网页内容提取技术，在识别网页的同时快速抓取网页信息、提取实体对象，实现对实体对象的快速判别，为大数据分析提供了保障，无需软硬件资源，满足了中小企业、个人用户对大数据分析服务低成本、定向化和个性化的要求。
搜索关键词：	大数据实体对象互联网文本半监督学习服务平台神经网络挖掘系统网页抓取网页内容提取抓取存储数据库结构化文本软硬件资源分析服务个人用户计算实体网页信息引擎技术低成本客户端挖掘引擎个性化数据库存储网页中小企业概率分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其主要特征包括以下几点：S1.网页抓取：获取网页源码，去除干扰词及标签，统一标点符号的编码；S2.关系结构化网页内容：根据网页HTML标签之间的层级关系结构化网页文本内容；S3.提取实体对象：根据预先建立的主题词典，近邻搜索结构化的网页文本，提取出主题相关的实体对象；S4.计算实体对象属于主题的概率：提取出预定义的人工特征，使用神经网络判断实体的对象与主题的相关度；S5.存储结果到数据库。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州双龙数联科技有限公司，未经贵州双龙数联科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711057863.2/，转载请声明来源钻瓜专利网。

上一篇：一种账单消息处理方法、装置和存储介质
下一篇：文本静默座席监控机器人人机对话方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于神经网络半监督学习的互联网大数据文本精准挖掘引擎在审

专利文献下载