[发明专利]一种相似文本检测方法及装置在审

申请号：	201710663792.4	申请日：	2017-08-06
公开（公告）号：	CN110019660A	公开（公告）日：	2019-07-16
发明（设计）人：	贺达;徐文斌	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F17/27
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本检测数组筛选文本集合目标文本文本文本处理文本提取阈值时检测应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种相似文本检测方法及装置，涉及文本处理技术领域，为解决现有的相似文本检测需要花费的时间较多，从而导致相似文本检测的效率较低而发明。本发明的方法包括：利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。本发明适合应用在相似文本的检测。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种相似文本检测方法及装置。

背景技术

随着网络的蓬勃发展，互联网已成为各大厂商投放广告的重要领域。为了更好的推广产品信息，厂商们开始投放“软文”广告以逐步取代以往的广告形式。其中，“软文”广告可以将厂商们想要推荐的产品与相关文章有机的结合在一起，能够使阅读者在认同文章中理念的同时更好接受文章中推荐的产品。为了验证“软文”广告的推广效果，厂商通常会使用现有技术中的TF-IDF、LDA等算法或模型，通过计算出“软文”广告的原始文本与网络中待判断文本的特征，并对该计算出的特征进行一一对比来确定文本是否相似，进而判断推广效果。

目前，在对相似文本的检测时，需要计算每一个待判断文本与原始文本的相似度。然而，当网络中待判断文本的数量较大时，要对每一篇待判断文本都进行相似度计算无疑将消耗检测设备的大量计算资源，而在检测设备的计算资源一定的情况下，要完成相似文本的检测将需要花费更多的时间，从而导致相似文本检测的效率低下。

发明内容

鉴于上述问题，本发明提供一种相似文本检测方法及装置，主要目的在于减少相似文本检测过程中所需花费的时间，进而提高相似文本检测的效率。

为解决上述技术问题，第一方面，本发明提供了一种相似文本检测方法，该方法包括：

利用从目标文本中提取的第一关键词数组对待检测文本集合进行筛选，得到筛选文本集合；

对所述筛选文本集合中的每个筛选文本提取对应的第二关键词数组；

当所述第一关键词数组与所述第二关键词数组中含有相同关键词的数量达到阈值时，确定所述筛选文本为所述目标文本的相似文本。

优选的，在确定所述筛选文本为所述目标文本的相似文本之前，所述方法还包括：

匹配所述第一关键词数组与所述第二关键词数组中含有的相同关键词；

当存在多个相同关键词时，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同；

提取具有相同排布顺序的关键词，计算所述关键词的数量是否达到所述阈值。

优选的，判断所述相同关键词在所述第一关键词数组中的排布顺序是否与在所述第二关键词数组中的排布顺序相同包括：