[发明专利]基于人工智能的网页原创评估方法、装置及存储介质有效

申请号：	201710202081.7	申请日：	2017-03-30
公开（公告）号：	CN107168997B	公开（公告）日：	2021-07-20
发明（设计）人：	马晋;程刚;张晋;周志奋;李田赫	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F40/205
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	袁媛
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于人工智能网页原创评估方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于人工智能的网页原创评估方法、装置及存储介质，其中方法包括：针对从待处理的网页中提取出的每个句子，分别获取该句子的权值，并识别出该句子是否为原创句子；根据识别结果以及获取到的句子的权值确定出待处理的网页的原创权威性。应用本发明所述方案，能够对网页的原创权威性进行有效的评估。

【技术领域】

本发明涉及互联网技术，特别涉及基于人工智能的网页原创评估方法、装置及存储介质。

【背景技术】

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着近年来互联网数据的爆炸性增长，搜索引擎公司开始检索千亿级别的网页资源。在海量网页资源的背后，存在相当一部分数量的站长或资源产生方，为了减少网页制作的成本，或是利用其它的优质网页为自己的网站吸取点击增加流量等，转载甚至抄袭其它的优质原创网页。

这种现象虽然在一定程度上有利于网络资源的快速传播，但由于原创内容的作者花费了一定的时间和精力创作内容，上述的转载或抄袭行为会削减甚至消除原创作者的创作价值；另外，对于搜索引擎等而言，如果搜录了大量重复的资源，会消耗掉更多的成本如储存和检索时间等。

因此，需要对网页的原创权威性进行评估，以便在进行资源筛选、检索端资源召回、检索端排序策略等场景中时，能够将那些原创并且原创价值被认可的资源展现给用户，以便促进搜索内容生态的建设等。

但是，关于如何对网页的原创权威性进行评估，现有技术中还没有一种有效的实现方式。

【发明内容】

有鉴于此，本发明提供了基于人工智能的网页原创评估方法、装置及存储介质。

具体技术方案如下：

一种基于人工智能的网页原创评估方法，包括：

针对从待处理的网页中提取出的每个句子，分别获取所述句子的权值，并识别出所述句子是否为原创句子；

根据识别结果以及获取到的句子的权值确定出所述待处理的网页的原创权威性。

一种基于人工智能的网页原创评估装置，包括：预处理模块和评估模块；

所述预处理模块，用于针对从待处理的网页中提取出的每个句子，分别获取所述句子的权值，并识别出所述句子是否为原创句子；