[发明专利]基于证据理论的网络质量评价方法在审

专利信息
申请号: 201610280055.1 申请日: 2016-04-29
公开(公告)号: CN105975984A 公开(公告)日: 2016-09-28
发明(设计)人: 左祥麟;杨博;范利云;左万利;王俊华;王英;王泊;郑慧中 申请(专利权)人: 吉林大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/08
代理公司: 吉林长春新纪元专利代理有限责任公司 22100 代理人: 陈宏伟
地址: 130011 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于证据理论的网络质量评价方法,给出了清晰、明确、可计算的网页质量评价指标体系,能够针对任何类别的网页进行质量评价,以综合可信度质量为重点,结合了网页内容质量和网站内容质量的各种评价角度,可以保证相当的客观性和真实性,同时实现了自动化的指标采集量化。
搜索关键词: 基于 证据 理论 网络 质量 评价 方法
【主权项】:
1.一种基于证据理论的网络质量评价方法,其技术方案包括如下步骤:1)面向网页质量评价的网页分类步骤1,制定网页分类体系;步骤2,构建训练样本集,依据以上制定的网页分类体系,选择具有类别特征的词语构建查询,获得候选训练样本集CTSet={(p1,c1),(p2,c2),…,(pn,cn)},其中pi为网页,ci为网页所属类别;步骤3,特征抽取,生成合理有效的网页特征集:步骤3.1,网页去噪,构建DOM树,依据容器标签将网页划分为内容区域A1,A2,…,AL;并依据如下公式计算其LinkWordRatioi值:其中,WordNumi是Ai的内容字数,LinkNumi是链接数;在此基础上识别出满足WordNumi>N且LinkWordRatioi<R的内容区域Ai,即为主体内容区域SAj,使用TF/IDF选择并构建URL特征词集合;步骤3.2,特征抽取,抽取网页特征;步骤3.3,特征项处理,采用如下公式进行数据预处理:其中,xij是第i个训练样本的第j个特征项取值,n为样本总数;步骤4,训练网页分类器,通过以上步骤获取合适的样本向量集后,利用“一对多”SVM分类器进行训练和处理,采用如下公式得到的一个t阶多项分类器:K(x,y)=(x·y+1)t,t=1,2,…一对多分类方法中的每一个SVM优化后都得到一个决策树,对于第j个支持向量机,其决策函数为如下公式:其中,b为分类阈值,K(xi,x)为xi与x的核函数,具体计算公式为K(x,y)=(x·y+1)t,t=1,2,…;最终决策函数定义为如下公式:F(x)=argmaxj=1.2.…9(gj(x))2)指标的自动获取与量化,若干个指标融合为一条证据步骤1,指标体系,包括网页质量、网站质量和综合可信度;步骤2,依据指标体系进行指标分层;步骤3,对网页的参数类型、网站的安全性以及网站的备案信息进行量化;步骤4,复杂指标获取:步骤4.1,网页主体提取,针对主题明确的网页,采用DOM树和VIPS算法,结合主体模板库中的XPath模板对网页进行初步分块,得到主体语义段落的集合;步骤4.2,网页主题词挖掘:①主题向量构建:借助WordNet,获取网页类别的同义词集及其下位概念的同义词集,构成同义词集B,对所有Bi∈B,统计Bi中各词在网页主体内容中的出现次数,取和作为Bi的权重VTi,组成网页主题向量VT;②权重修正:综合分析HTML代码标签与主题词出现位置,修正网页主题向量VT;标签权重参数PM(m),基于DMOZ分类目录,采用统计手段,计算标签m中包含主题词的次数与该标签出现次数之比;位置权重参数PL(i),定义词语i在正文中出现的位置Li如下:其中,Di为词语i距正文开头的距离,以字数计,Num为正文总字数,Len是一个规范化常量;基于DMOZ分类目录,获取位置权重分段函数PLF,从而词语i的位置权重参数PLi=PLF(Li);结合标签权重参数和位置权重参数修正网页主题向量,修正系数如下:其中,M为集合Bi中所有词语每次出现时所属标签的集合,L为集合Bi中所有词语每次出现位置的集合;修正后的网页主题向量元素为VTi’=VTi×E(VTi),则最终的网页主题向量为(VT1’,VT2’,...,VTn’);③主题词抽取:给定一个阈值β,从修正后的主题向量中选取出值大于β的分量,这些分量对应同义词集中的元素为网页主题词;步骤4.3,网页K-相关性判别:①获取主题概念集:对网页P与P’,利用前述主题词挖掘技术,获得相应主题词集TW(P)与TW(P’);若TW(P)与TW(P’)有一者为空集,则认为P’与P不具有K-相关性;否则,依据网页内容,结合通用本体和自然语言处理技术,对TW(P)与TW(P’)中的主题词进行词义标注,生成主题概念集TC(P)与TC(P’);②构建主题概念链集:对TC(P)中的每一概念tci,利用通用本体构建以tci为头结点、长度至多为K的上位概念链uli=<tci,ci1,ci2,…,cin>,其中n<K,组成主题概念链集UL(P);③主题概念匹配:对于主题概念链集UL(P)和主题概念集TC(P’),若存在ul∈UL(P)和tc∈TC(P’),使得tc或tc至多K-1级的上位概念为ul中的项,则网页P’与P具有K-相关性;否则,网页P’与P不具有K-相关性;步骤4.3,构建基于搜索引擎点击日志的动态网页库,首先通过对当前点击日志的分析和抽样,建立初始网页库,然后定期根据新的点击日志随机抽取一定数量的样本加入网页库,替换旧网页库中最旧且最不被频繁使用的样本集;3)BPA生成步骤1,神经网络输入预处理,对于上述采集到的指标向量使用在线的零-均值标准化方法进行预处理,产生具有全局一致性的输出向量;将每个输入样本记为一个n维行向量,假定待处理的一条输入数据仍是n维行向量,将其加入矩阵P得到新的(m+1)行n列矩阵P',对P'应用零-均值标准化方法,各列的均值和标准差公式如下:其中μj’和σj’是矩阵P’第j列属性的均值和标准差;步骤2,制定训练样本集,通过拟定模糊评语集合、指标质量评语集合及其各评语对应模糊评价集合的隶属度,使用D-S证据理论计算BPA;步骤3,采用具有偏差单元的BP网络,构建神经网络拓扑;步骤4,神经网络训练,在步骤3BP网络的基础上,使用冲量信息改进传统的反向传播算法,并引入神经网络熵的概念以计算BPA中的不确定焦元信度;输出层的输出向量公式如下:其中Hid(n)为第n次迭代过程中隐层的输出向量,WtOUT为隐层到输出层的权值,WtBIAS(OUT)为偏差节点到输出层的权值;隐层的输出向量计算公式如下:Hidj(n)=f(Sj(n))其中f和Sj为辅助函数,WtMT为隐层到自身的权值,WtIN为输入层到隐层的权值,In(n)为第n次迭代过程中的输入向量,WtBIAS(HID)为偏差节点到隐层的权值,α是 一个调整系数;基于神经网络的输出,利用可信度BeliefFactor,经归一化产生指标融合BPA;BeliefFactor计算公式如下:最终的BPA计算公式为:其中,识别框架Θ={很好,好,一般,差,很差};4)证据合成步骤1,相关证据处理,已知证据E1和E2相关,其相关度为R,基本信任分配函数分别为m1和m2,则证据E1和E2的BPA调整为如下公式:其中,T是焦元,s为1或2;步骤2,证据重要度分配,已知证据集S={S1,S2,…,S14},相应权重矩阵为Δ=[δij]9×14,其中,δij表示证据Sj对第i类网页的重要度,δij量化公式如下:其中,Pi为第i类网页的神经网络训练样本集,向量vk1为Pi中第k个网页的评价向量,向量vk2为第k个证据缺失时,Pi中第k个网页经证据合成后所得评价结果向量;证据Sj对第i类网页的相对重要度λij为:其中,η是对证据权重偏好的修正系数,与专家的知识、经验有关,0.9≤η≤1;步骤3,冲突证据处理:步骤3.1,采用命题稀释度衡量证据间的冲突,命题稀释度为各证据对同一命题支持度的标准差;已知证据集S={S1,S2,…,St},相应基本信任分配函数集M={m1,m2,…,mt},则S中各证据对命题A的命题稀释度为:步骤3.2,冲突证据信任调整,S中各证据对命题集合U的命题稀释度子集UR={RA|A∈U,RA≥β};若|UR|≤1,不做处理;否则,补充命题G=∪RA∈UR A,表示结论必是G中的一个命题,但不能确定是哪一个命题;当G等于识别框架Θ时,表示命题损失的信度被分配给了识别框架,结论完全不确定;生成新的基本信任分配函数集M’={m1’,m2’,…,mt’}:步骤4,BPA合成,对步骤3.2生成的基本信任分配函数集M做如下调整:其中,λk(Si)为证据Si对第k类网页的相对重要度;最后对调整后的M使用D-S合成规则,实现证据的合成:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610280055.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top