[发明专利]基于神经网络半监督学习的互联网大数据文本精准挖掘引擎在审

申请号：	201711057863.2	申请日：	2017-10-23
公开（公告）号：	CN109697225A	公开（公告）日：	2019-04-30
发明（设计）人：	陈琳;马杲灵;杜华飞;任渝	申请（专利权）人：	贵州双龙数联科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	550002 贵州省贵阳市***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	大数据实体对象互联网文本半监督学习服务平台神经网络挖掘系统网页抓取网页内容提取抓取存储数据库结构化文本软硬件资源分析服务个人用户计算实体网页信息引擎技术低成本客户端挖掘引擎个性化数据库存储网页中小企业概率分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其主要特征包括以下几点：

S1.网页抓取：获取网页源码，去除干扰词及标签，统一标点符号的编码；

S2.关系结构化网页内容：根据网页HTML标签之间的层级关系结构化网页文本内容；

S3.提取实体对象：根据预先建立的主题词典，近邻搜索结构化的网页文本，提取出主题相关的实体对象；

S4.计算实体对象属于主题的概率：提取出预定义的人工特征，使用神经网络判断实体的对象与主题的相关度；

S5.存储结果到数据库。

2.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其特征S1是抓取网页，使用正则规则统一标点符号编码，通过HTML标签去除无关的脚本、注释、样式控制等信息。

3.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其特征S2是先根据HTML标签的层级关系层级化网页文本的内容，形成树状关系结构，再合并部分特殊HTML标签中的文本内容，最后生成文本序列。

4.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其特征S3是根据预先建立的主题词典搜索文本序列，一旦在文本附近发现主题词，序列就会使用预先训练的LSTM+CRF神经网络提取出实体对象。

5.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎，其特征S4是先提取出的实体对象提取特征，包括实体对象的相对主题关键词的位置，实体对象前后的标点符号，实体对象切词后计算词汇的词性特征，然后根据以上特征使用预先训练的神经网络计算实体对象属于相应主题的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州双龙数联科技有限公司，未经贵州双龙数联科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711057863.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载