[发明专利]基于证据理论的网络质量评价方法在审
申请号: | 201610280055.1 | 申请日: | 2016-04-29 |
公开(公告)号: | CN105975984A | 公开(公告)日: | 2016-09-28 |
发明(设计)人: | 左祥麟;杨博;范利云;左万利;王俊华;王英;王泊;郑慧中 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 吉林长春新纪元专利代理有限责任公司 22100 | 代理人: | 陈宏伟 |
地址: | 130011 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于证据理论的网络质量评价方法,给出了清晰、明确、可计算的网页质量评价指标体系,能够针对任何类别的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的各种评价角度,可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。 | ||
搜索关键词: | 基于 证据 理论 网络 质量 评价 方法 | ||
【主权项】:
1.一种基于证据理论的网络质量评价方法,其技术方案包括如下步骤:1)面向网页质量评价的网页分类步骤1,制定网页分类体系;步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词语构建查询,获得候选训练样本集CTSet={(p1 ,c1 ),(p2 ,c2 ),…,(pn ,cn )},其中pi 为网页,ci 为网页所属类别;步骤3,特征抽取,生成合理有效的网页特征集:步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域A1 ,A2 ,…,AL ;并依据如下公式计算其LinkWordRatioi 值: 其中,WordNumi 是Ai 的内容字数,LinkNumi 是链接数;在此基础上识别出满足WordNumi >N且LinkWordRatioi <R的内容区域Ai ,即为主体内容区域SAj ,使用TF/IDF选择并构建URL特征词集合;步骤3.2,特征抽取,抽取网页特征;步骤3.3,特征项处理,采用如下公式进行数据预处理: 其中,xij 是第i个训练样本的第j个特征项取值,n为样本总数;步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用“一对多”SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:K(x,y)=(x·y+1)t ,t=1,2,…一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量机,其决策函数为如下公式: 其中,b为分类阈值,K(xi ,x)为xi 与x的核函数,具体计算公式为K(x,y)=(x·y+1)t ,t=1,2,…;最终决策函数定义为如下公式:F(x)=argmaxj=1.2.…9 (gj (x))2)指标的自动获取与量化,若干个指标融合为一条证据步骤1,指标体系,包括网页质量、网站质量和综合可信度;步骤2,依据指标体系进行指标分层;步骤3,对网页的参数类型、网站的安全性以及网站的备案信息进行量化;步骤4,复杂指标获取:步骤4.1,网页主体提取,针对主题明确的网页,采用DOM树和VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集合;步骤4.2,网页主题词挖掘:①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集,构成同义词集B,对所有Bi ∈B,统计Bi 中各词在网页主体内容中的出现次数,取和作为Bi 的权重VTi ,组成网页主题向量VT;②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT;标签权重参数PM(m),基于DMOZ分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签出现次数之比;位置权重参数PL(i),定义词语i在正文中出现的位置Li 如下: 其中,Di 为词语i距正文开头的距离,以字数计,Num为正文总字数,Len是一个规范化常量;基于DMOZ分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PLi =PLF(Li );结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下: 其中,M为集合Bi 中所有词语每次出现时所属标签的集合,L为集合Bi 中所有词语每次出现位置的集合;修正后的网页主题向量元素为VTi ’=VTi ×E(VTi ),则最终的网页主题向量为(VT1 ’,VT2 ’,...,VTn ’);③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于β的分量,这些分量对应同义词集中的元素为网页主题词;步骤4.3,网页K-相关性判别:①获取主题概念集:对网页P与P’,利用前述主题词挖掘技术,获得相应主题词集TW(P)与TW(P’);若TW(P)与TW(P’)有一者为空集,则认为P’与P不具有K-相关性;否则,依据网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P’)中的主题词进行词义标注,生成主题概念集TC(P)与TC(P’);②构建主题概念链集:对TC(P)中的每一概念tci ,利用通用本体构建以tci 为头结点、长度至多为K的上位概念链uli =<tci ,ci1 ,ci2 ,…,cin >,其中n<K,组成主题概念链集UL(P);③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P’),若存在ul∈UL(P)和tc∈TC(P’),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P’与P具有K-相关性;否则,网页P’与P不具有K-相关性;步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页库,替换旧网页库中最旧且最不被频繁使用的样本集;3)BPA生成步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个n维行向量,假定待处理的一条输入数据仍是n维行向量,将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法,各列的均值和标准差公式如下: 其中μj ’和σj ’是矩阵P’第j列属性的均值和标准差;步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑;步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;输出层的输出向量公式如下: 其中Hid(n)为第n次迭代过程中隐层的输出向量,WtOUT 为隐层到输出层的权值,WtBIAS (OUT) 为偏差节点到输出层的权值;隐层的输出向量计算公式如下:Hidj (n)=f(Sj (n)) 其中f和Sj 为辅助函数,WtMT 为隐层到自身的权值,WtIN 为输入层到隐层的权值,In(n)为第n次迭代过程中的输入向量,WtBIAS (HID) 为偏差节点到隐层的权值,α是 一个调整系数;基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合BPA;BeliefFactor计算公式如下: 最终的BPA计算公式为: 其中,识别框架Θ={很好,好,一般,差,很差};4)证据合成步骤1,相关证据处理,已知证据E1 和E2 相关,其相关度为R,基本信任分配函数分别为m1 和m2 ,则证据E1 和E2 的BPA调整为如下公式: 其中,T是焦元,s为1或2;步骤2,证据重要度分配,已知证据集S={S1 ,S2 ,…,S14 },相应权重矩阵为Δ=[δij ]9×14 ,其中,δij 表示证据Sj 对第i类网页的重要度,δij 量化公式如下: 其中,Pi 为第i类网页的神经网络训练样本集,向量vk1 为Pi 中第k个网页的评价向量,向量vk2 为第k个证据缺失时,Pi 中第k个网页经证据合成后所得评价结果向量;证据Sj 对第i类网页的相对重要度λij 为: 其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9≤η≤1;步骤3,冲突证据处理:步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度的标准差;已知证据集S={S1 ,S2 ,…,St },相应基本信任分配函数集M={m1 ,m2 ,…,mt },则S中各证据对命题A的命题稀释度为: 步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={RA |A∈U,RA ≥β};若|UR|≤1,不做处理;否则,补充命题G=∪RA∈UR A,表示结论必是G中的一个命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框架,结论完全不确定;生成新的基本信任分配函数集M’={m1 ’,m2 ’,…,mt ’}: 步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M做如下调整: 其中,λk (Si )为证据Si 对第k类网页的相对重要度;最后对调整后的M使用D-S合成规则,实现证据的合成:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610280055.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种PCB板自动检验装置
- 下一篇:基于压电薄膜传感器的井盖变形监测系统