[发明专利]基于人工智能的网页原创评估方法、装置及存储介质有效
申请号: | 201710202081.7 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107168997B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 马晋;程刚;张晋;周志奋;李田赫 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F40/205 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 网页 原创 评估 方法 装置 存储 介质 | ||
本发明公开了基于人工智能的网页原创评估方法、装置及存储介质,其中方法包括:针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子;根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。应用本发明所述方案,能够对网页的原创权威性进行有效的评估。
【技术领域】
本发明涉及互联网技术,特别涉及基于人工智能的网页原创评估方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着近年来互联网数据的爆炸性增长,搜索引擎公司开始检索千亿级别的网页资源。在海量网页资源的背后,存在相当一部分数量的站长或资源产生方,为了减少网页制作的成本,或是利用其它的优质网页为自己的网站吸取点击增加流量等,转载甚至抄袭其它的优质原创网页。
这种现象虽然在一定程度上有利于网络资源的快速传播,但由于原创内容的作者花费了一定的时间和精力创作内容,上述的转载或抄袭行为会削减甚至消除原创作者的创作价值;另外,对于搜索引擎等而言,如果搜录了大量重复的资源,会消耗掉更多的成本如储存和检索时间等。
因此,需要对网页的原创权威性进行评估,以便在进行资源筛选、检索端资源召回、检索端排序策略等场景中时,能够将那些原创并且原创价值被认可的资源展现给用户,以便促进搜索内容生态的建设等。
但是,关于如何对网页的原创权威性进行评估,现有技术中还没有一种有效的实现方式。
【发明内容】
有鉴于此,本发明提供了基于人工智能的网页原创评估方法、装置及存储介质。
具体技术方案如下:
一种基于人工智能的网页原创评估方法,包括:
针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
一种基于人工智能的网页原创评估装置,包括:预处理模块和评估模块;
所述预处理模块,用于针对从待处理的网页中提取出的每个句子,分别获取所述句子的权值,并识别出所述句子是否为原创句子;
所述评估模块,用于根据所述预处理模块的识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可针对从待处理的网页中提取出的每个句子,分别获取该句子的权值,并识别出该句子是否为原创句子,进而根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性,从而实现了对于网页的原创权威性进行有效的评估。
【附图说明】
图1为本发明所述基于人工智能的网页原创评估方法实施例的流程图。
图2为本发明所述按照方式一进行网页的原创权威性评估的方法实施例的流程图。
图3为本发明所述基于人工智能的网页原创评估装置实施例的组成结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202081.7/2.html,转载请声明来源钻瓜专利网。