[发明专利]一种文本匹配方法及装置有效
申请号: | 201010290693.4 | 申请日: | 2010-09-20 |
公开(公告)号: | CN102411583A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 张旭;苏宁军;顾海杰;祁建程 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 方法 装置 | ||
技术领域
本申请涉及数据处理领域,尤指一种大数据量的文本匹配方法及装置。
背景技术
现有的文本比较,一般采用全量运算匹配的方式,当需要计算文本之间的相关程度的时候,需要针对获取的所有文本进行计算,最终得到两两之间的相似度,这样每计算一次相似度都要针对所有的文本数据进行计算,其计算量将是非常巨大的,其运行时间为O(N^2)量级的,随着文本数量N的增大,运算的时间也会很长。
这种大数据量的运算比较对设备的系统性能带来了很大的影响,使系统的I/O通讯、数据存储、数据的网络传输都面临很大的压力,导致设备的数据处理速度缓慢,甚至出现数据传输的阻塞或拥塞。
这种全量运算的文本匹配所存在的大数据运算量对系统性能的影响,随着需要匹配的文本数量的增大,变的越来越严重。如何实现对大数据量匹配的高效处理,成为亟待解决的难题。
由于现有技术中基本上都对基于内容的文本匹配进行全量数据运算,对于基于内容的文本匹配的优化,已有技术可以包括下列方式:
(1)针对单机版的基于内容的文本匹配,通过建索引的方式提高文本匹配的速度和效率。
(2)针对分布式的基于内容的文本匹配,主要是增加硬件支持,比如增加并行度,执行并行运算。
但是无论是建立索引还是增加并行度都不能很好的解决文本匹配过程中,全量数据运算操作所存在的数据计算量大,运行时间长,需要对所有数据进行运算和一一比对,需要的存储空间大等问题,因此,现有的文本匹配方式存在的数据处理速度慢、网络传输阻塞等系统性能瓶颈依然比较严重。
发明内容
本申请实施例提供一种文本匹配方法及装置,用以解决现有技术中存在的文本匹配数据处理量大导致处理速度慢、影响系统性能、引起传输阻塞等问题。
一种文本匹配方法,包括:
周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
对输入的新增文本进行分词,并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
根据计算得到的相似度确定数据库中存储的各文本的相关文本。
一种文本匹配装置,包括:
收集模块,用于周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
分词模块,用于对输入的新增文本进行分词,并提取关键词;
权重确定模块,用于根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;
词频更新模块,用于根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
相似度确定模块,用于根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
文本比较模块,用于根据计算得到的相似度确定数据库中存储的各文本的相关文本。
本申请有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010290693.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:小功率LED灯具照明系统
- 下一篇:移动终端以及移动终端的时间更新方法