[发明专利]基于神经网络半监督学习的互联网大数据文本精准挖掘引擎在审
申请号: | 201711057863.2 | 申请日: | 2017-10-23 |
公开(公告)号: | CN109697225A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 陈琳;马杲灵;杜华飞;任渝 | 申请(专利权)人: | 贵州双龙数联科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 550002 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 大数据 实体对象 互联网 文本 半监督学习 服务平台 神经网络 挖掘系统 网页抓取 网页内容提取 抓取 存储数据库 结构化文本 软硬件资源 分析服务 个人用户 计算实体 网页信息 引擎技术 低成本 客户端 挖掘 引擎 个性化 数据库 存储 网页 中小企业 概率 分析 | ||
1.基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其主要特征包括以下几点:
S1.网页抓取:获取网页源码,去除干扰词及标签,统一标点符号的编码;
S2.关系结构化网页内容:根据网页HTML标签之间的层级关系结构化网页文本内容;
S3.提取实体对象:根据预先建立的主题词典,近邻搜索结构化的网页文本,提取出主题相关的实体对象;
S4.计算实体对象属于主题的概率:提取出预定义的人工特征,使用神经网络判断实体的对象与主题的相关度;
S5.存储结果到数据库。
2.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其特征S1是抓取网页,使用正则规则统一标点符号编码,通过HTML标签去除无关的脚本、注释、样式控制等信息。
3.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其特征S2是先根据HTML标签的层级关系层级化网页文本的内容,形成树状关系结构,再合并部分特殊HTML标签中的文本内容,最后生成文本序列。
4.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其特征S3是根据预先建立的主题词典搜索文本序列,一旦在文本附近发现主题词,序列就会使用预先训练的LSTM+CRF神经网络提取出实体对象。
5.根据权利要求1所述的基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,其特征S4是先提取出的实体对象提取特征,包括实体对象的相对主题关键词的位置,实体对象前后的标点符号,实体对象切词后计算词汇的词性特征,然后根据以上特征使用预先训练的神经网络计算实体对象属于相应主题的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州双龙数联科技有限公司,未经贵州双龙数联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711057863.2/1.html,转载请声明来源钻瓜专利网。