首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种文本匹配方法及装置有效

申请号：	201010290693.4	申请日：	2010-09-20
公开（公告）号：	CN102411583A	公开（公告）日：	2012-04-11
发明（设计）人：	张旭;苏宁军;顾海杰;祁建程	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭润湘
地址：	英属开曼群岛大开曼***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本匹配方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及数据处理领域，尤指一种大数据量的文本匹配方法及装置。

背景技术

现有的文本比较，一般采用全量运算匹配的方式，当需要计算文本之间的相关程度的时候，需要针对获取的所有文本进行计算，最终得到两两之间的相似度，这样每计算一次相似度都要针对所有的文本数据进行计算，其计算量将是非常巨大的，其运行时间为O(N^2)量级的，随着文本数量N的增大，运算的时间也会很长。

这种大数据量的运算比较对设备的系统性能带来了很大的影响，使系统的I/O通讯、数据存储、数据的网络传输都面临很大的压力，导致设备的数据处理速度缓慢，甚至出现数据传输的阻塞或拥塞。

这种全量运算的文本匹配所存在的大数据运算量对系统性能的影响，随着需要匹配的文本数量的增大，变的越来越严重。如何实现对大数据量匹配的高效处理，成为亟待解决的难题。

由于现有技术中基本上都对基于内容的文本匹配进行全量数据运算，对于基于内容的文本匹配的优化，已有技术可以包括下列方式：

(1)针对单机版的基于内容的文本匹配，通过建索引的方式提高文本匹配的速度和效率。

(2)针对分布式的基于内容的文本匹配，主要是增加硬件支持，比如增加并行度，执行并行运算。

但是无论是建立索引还是增加并行度都不能很好的解决文本匹配过程中，全量数据运算操作所存在的数据计算量大，运行时间长，需要对所有数据进行运算和一一比对，需要的存储空间大等问题，因此，现有的文本匹配方式存在的数据处理速度慢、网络传输阻塞等系统性能瓶颈依然比较严重。

发明内容

本申请实施例提供一种文本匹配方法及装置，用以解决现有技术中存在的文本匹配数据处理量大导致处理速度慢、影响系统性能、引起传输阻塞等问题。

一种文本匹配方法，包括：

周期性收集用户发布的内容信息，根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中；

对输入的新增文本进行分词，并提取关键词；根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重；所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新；数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本；

根据计算得到的每个关键词在数据库中的各文本中的权重，计算每个新增文本与数据库中的各文本的相似度，或计算数据库中任意两个文本的相似度；

根据计算得到的相似度确定数据库中存储的各文本的相关文本。

一种文本匹配装置，包括：

收集模块，用于周期性收集用户发布的内容信息，根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中；

分词模块，用于对输入的新增文本进行分词，并提取关键词；

权重确定模块，用于根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重；

词频更新模块，用于根据各个词语在数据库中的各文本中的出现频率周期性更新；数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本；

相似度确定模块，用于根据计算得到的每个关键词在数据库中的各文本中的权重，计算每个新增文本与数据库中的各文本的相似度，或计算数据库中任意两个文本的相似度；

文本比较模块，用于根据计算得到的相似度确定数据库中存储的各文本的相关文本。

本申请有益效果如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010290693.4/2.html，转载请声明来源钻瓜专利网。

上一篇：小功率LED灯具照明系统
下一篇：移动终端以及移动终端的时间更新方法

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top