[发明专利]一种融合压缩DOM树结构向量的网络行为预测方法有效
申请号: | 202011342632.8 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112668309B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 陈伟宁 | 申请(专利权)人: | 紫光云技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/284;G06F40/154;G06F16/35;G06F18/25 |
代理公司: | 天津滨海科纬知识产权代理有限公司 12211 | 代理人: | 刘莹 |
地址: | 300459 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 压缩 dom 结构 向量 网络 行为 预测 方法 | ||
本发明提供了一种融合压缩DOM树结构向量的网络行为预测方法,包括:文本语料筛选,用于增强预测的准确性;词向量模型,用于增强模型说服力,考虑到每个词在文本中的重要程度不同,结合TF‑IDF原理,计算每个词的权重,并在引入权重后进行加权平均,最终表示整段文本的特征向量;压缩DOM树结构向量生成与向量融合,不同类型网站中的网页DOM树在节点使用和整体结构上都具有一定特点,因此可将DOM树的结构转化为向量,并作为辅助条件与文本特征向量融合,构建成最终的融合向量。本发明所述的一种融合压缩DOM树结构向量的网络行为预测方法,有效筛选重要信息、构建更具说服力的文本特征向量,并采用融合向量的方法提升了准确率。
技术领域
本发明属于Web前端技术领域,尤其是涉及一种融合压缩DOM树结构向量的网络行为预测方法。
背景技术
判别用户的网络行为类别,实际是对用户浏览网页类型的分类预测。传统方法利用日志工具等直接对请求网址类型进行判别,往往准确度不高,且在面对海量数据时无法进行全面判断;
当前主流方法是采用爬虫策略爬取网页的全部文本内容,进而构建词向量模型,再应用机器学习或深度学习方法训练模型,最后对未知网页类别进行判断。这类方法虽然前期工作较为繁琐,但依靠前期训练出的优良模型,后期工作量不大,且预测准确度得到显著提升;
当前主流方法存在三个明显缺点:1、选择爬取网页中的全部文本信息,就必然存在大量的噪声元素,对最终的判别效果产生一定的影响;2、在构建词向量模型时,采用传统的均值模型,即用文本中所有词的词向量加和取平均后,作为整段文本的特征向量,这种方法在未考虑每个词重要程度的前提下,为所有词赋予了相同的权重,这与实际情况是相违背的;3、仅仅选择文本信息作为数据源,使准确度停滞在当前范围内而无较大提升,这一点也是当前预测精度受限的主要原因。
发明内容
有鉴于此,本发明旨在提出一种融合压缩DOM树结构向量的网络行为预测方法,对用户的网络行为进行判别,进而有效分析出用户的网络行为习惯等信息,为网络用户画像提供可靠的基础数据。
为达到上述目的,本发明的技术方案是这样实现的:
一种融合压缩DOM树结构向量的网络行为预测方法,包括:
文本语料筛选,用于增强预测的准确性;
词向量模型,用于增强模型说服力,考虑到每个词在文本中的重要程度不同,结合TF-IDF原理,计算每个词的权重,并在引入权重后进行加权平均,最终表示整段文本的特征向量;
压缩DOM树结构向量生成与向量融合,不同类型网站中的网页DOM树在节点使用和整体结构上都具有一定特点,因此可将DOM树的结构转化为向量,并作为辅助条件与文本特征向量融合,构建成最终的融合向量。
进一步的,在文本语料筛选中,将以下信息作为网页中的语料文本:title网页标题信息标签1个,keywords网页关键词标签1个,description网页详细描述标签1个,a网页链接标签50个。
进一步的,为了增强模型说服力,考虑到每个词在文本中的重要程度不同,结合TF-IDF原理,计算每个词的权重,并在引入权重后进行加权平均,最终表示整段文本的特征向量;
首先按如下公式计算词频:
式中nw为特征词w在文本中出现的次数,N为文本中特征词总数,则TF用来衡量特征词在文本中的重要程度;
然后计算逆文本概率:
式中D为文本总数,Q为包含特征词的文本数,则IDF用于衡量特征词在所有文本中的重要程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于紫光云技术有限公司,未经紫光云技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011342632.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟专有云互通配置下发的实现方法
- 下一篇:一种新型积木式水泥加料装置