[发明专利]软文展现次数统计方法和装置有效
申请号: | 201510850381.7 | 申请日: | 2015-11-27 |
公开(公告)号: | CN106815196B | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 王名洋;吴丹 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/951;G06F16/953;G06F16/958 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 展现 次数 统计 方法 装置 | ||
1.一种软文展现次数统计方法,其特征在于,包括:
获取多个网页内容,其中,所述多个网页内容为搜索结果页中的多个网页的内容;
分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离;
分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同;以及
统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数;
其中,所述多个网页内容包括第一网页内容,分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离包括计算所述第一网页内容和所述目标软文的文本编辑距离,计算所述第一网页内容和所述目标软文的文本编辑距离包括:
分别对所述第一网页内容和所述目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,所述第一内容块列表为所述第一网页内容分块后得到的内容块列表,所述第二内容块列表为所述目标软文分块后得到的内容块列表;以及
分别计算所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离;
其中,分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同包括:
根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块;
分别统计所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度;
计算所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值;
判断所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值是否大于第二阈值;
当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值大于所述第二阈值时,则确定所述第一网页内容与所述目标软文相同;以及
当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值不大于所述第二阈值时,则确定所述第一网页内容与所述目标软文不相同。
2.根据权利要求1所述的方法,其特征在于,所述第二内容块列表包括第一内容块,根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块包括:
统计所述第一内容块的长度;
分别计算所述第一内容块列表中各个内容块与所述第一内容块的文本编辑距离与所述第一内容块的长度的比值,得到多个比值;
判断所述多个比值中是否存在小于第三阈值的比值;
当判断出所述多个比值中不存在小于所述第三阈值的比值时,则确定所述第一内容块列表中不存在与所述第一内容块相同的内容块;以及
当判断出所述多个比值中存在小于所述第三阈值的比值时,则确定所述第一内容块列表中存在与所述第一内容块相同的内容块,并获取所述第一内容块。
3.根据权利要求1所述的方法,其特征在于,在统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数之后,所述方法还包括:
分别获取所述多个网页内容中与所述目标软文相同的网页内容的排名;以及
展示所述目标软文的展现次数和所述多个网页内容中与所述目标软文相同的网页内容的排名。
4.一种软文展现次数统计装置,其特征在于,包括:
第一获取单元,用于获取多个网页内容,其中,所述多个网页内容为搜索结果页中的多个网页的内容;
计算单元,用于分别计算所述多个网页内容中各个网页内容和目标软文的文本编辑距离;
判断单元,用于分别根据所述多个网页内容中各个网页内容和所述目标软文的文本编辑距离判断所述各个网页内容是否与所述目标软文相同;以及
统计单元,用于统计所述多个网页内容中与所述目标软文相同的网页内容的数量,作为所述目标软文的展现次数;
其中,所述多个网页内容包括第一网页内容,所述计算单元包括:
分块模块,用于分别对所述第一网页内容和所述目标软文进行分块,得到第一内容块列表和第二内容块列表,其中,所述第一内容块列表为所述第一网页内容分块后得到的内容块列表,所述第二内容块列表为所述目标软文分块后得到的内容块列表;以及
第二计算模块,用于分别计算所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离;
其中,所述判断单元包括:
获取模块,用于根据所述第一内容块列表中各个内容块与所述第二内容块列表中各个内容块的文本编辑距离获取所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块;
第二统计模块,用于分别统计所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度;
第三计算模块,用于计算所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值;
第二判断模块,用于判断所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值是否大于第二阈值;以及
第二确定模块,用于当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值大于所述第二阈值时,则确定所述第一网页内容与所述目标软文相同,当判断出所述第二内容块列表中与所述第一内容块列表中的内容块相同的内容块的长度和所述目标软文的长度的比值不大于所述第二阈值时,则确定所述第一网页内容与所述目标软文不相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510850381.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分词方法及装置、检索方法及装置
- 下一篇:文本相似度的确定方法和装置