[发明专利]基于人工智能的网页原创评估方法、装置及存储介质有效
申请号: | 201710202081.7 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107168997B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 马晋;程刚;张晋;周志奋;李田赫 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F40/205 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 网页 原创 评估 方法 装置 存储 介质 | ||
1.一种基于人工智能的网页原创评估方法,其特征在于,包括:
针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性,包括:将保存在数据库中的各网页均作为待处理的网页;根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边,每条有向边分别对应两个网页,且方向为从其中一个网页指向另一个网页;根据识别结果及获取到的句子的权值分别确定每条有向边的权值;根据所有有向边的权值同时确定出各网页的原创权威性。
2.根据权利要求1所述的方法,其特征在于,
对待处理的网页进行句子提取包括:
获取所述待处理的网页的标题以及正文内容;
对所述正文内容进行句子切分,并分别计算切分出的每个句子的权值;
按照权值由大到小的顺序对切分出的各句子进行排序;
选出排序后处于前M位的句子,M为大于一的正整数,将选出的句子以及所述标题作为提取出的句子。
3.根据权利要求2所述的方法,其特征在于,
所述分别计算切分出的每个句子的权值包括:
针对切分出的每个句子,分别对所述句子进行切词和去停用词处理,并将处理后得到的各词的逆文本频率IDF值相加,将相加之和作为所述句子的权值。
4.根据权利要求1所述的方法,其特征在于,
所述根据识别结果分析出各网页之间的引用关系,并根据分析结果确定出一系列有向边包括:
针对每个网页,分别进行以下处理:
将所述网页作为引用网页,分别确定出所述引用网页中的每个非原创句子对应的原创句子所在的网页,将确定出的网页进行去重处理,将处理后得到的每个网页分别作为所述引用网页对应的引用来源网页;
分别利用所述引用网页及一个所述引用来源网页构成一条由所述引用网页指向所述引用来源网页的有向边。
5.根据权利要求4所述的方法,其特征在于,
所述根据识别结果及获取到的句子的权值分别确定每条有向边的权值包括:
对于每条有向边,分别从所述有向边对应的引用网页中的非原创句子中筛选出符合要求的非原创句子,所述符合要求为:对应的原创句子位于所述有向边对应的引用来源网页中;
计算筛选出的各非原创句子的权值之和,得到第一相加结果;
计算所述有向边对应的引用网页中的非原创句子的权值之和,得到第二相加结果;
用所述第一相加结果除以所述第二相加结果,将计算结果作为所述有向边的权值。
6.根据权利要求4所述的方法,其特征在于,
所述根据所有有向边的权值同时确定出各网页的原创权威性包括:
分别对各条有向边的权值进行正则化处理,将处理结果作为迭代算法的转移概率;
根据所有转移概率构成一个P*P的转移概率矩阵,P为正整数,取值等于保存在数据库中的网页数;
根据所述转移概率矩阵,通过迭代算法,同时确定出各网页的原创权威性。
7.根据权利要求6所述的方法,其特征在于,
所述同时确定出各网页的原创权威性包括:
设置一个P维的全1纵向量e;
进行迭代运算,包括:计算原创权威性向量与所述转移概率矩阵的乘积,并将所述乘积与所述e相加,其中,首次迭代时,将所述e作为所述原创权威性向量;
确定是否达到迭代收敛,如果否,则将相加之和作为所述原创权威性向量,并重复执行所述迭代运算,如果是,则将所述原创权威性向量中的每个元素分别作为一个网页的原创权威性评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202081.7/1.html,转载请声明来源钻瓜专利网。