[发明专利]句子层面的大规模快速匹配方法有效

专利信息
申请号: 200810107117.4 申请日: 2008-07-17
公开(公告)号: CN101329680A 公开(公告)日: 2008-12-24
发明(设计)人: 陈志刚;胡国平;胡郁;刘庆峰;王仁华 申请(专利权)人: 安徽科大讯飞信息科技股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 合肥天明专利事务所 代理人: 袁由茂
地址: 230088安徽省合肥*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 句子 层面 大规模 快速 匹配 方法
【说明书】:

技术领域

本发明涉及一种文本检索方法,具体涉及一种在文本检索查询中句子层面大规模快速匹配的方法。

背景技术

目前,搜索匹配算法在互联网搜索、管理信息系统中均得到大量应用。根据应用目的的不同,搜索匹配算法有所不同。最常见的算法是根据固定的关键词,组合以不同的逻辑与或关系,生成匹配规则。更为智能一点的算法支持音近或形近的关键词的搜索。

中国国家知识产权局网站公开检索的专利“短信内容的线性参数匹配算法”(公开号为200410061271.4)给出了一种可以通过匹配反馈信息线性调整匹配参数,使得对于一定流量的短信进行匹配的结果在理想范围之内。这个发明专利就是一种改进了的基于关键词的搜索匹配算法。

随着移动短信业务火爆开展,点歌短信匹配、转发短信匹配等句子层面的模糊匹配需求也与日俱增,由于短信内容为文本格式,内容虽然有限,但是数量和流量巨大,因此句子层面的模糊匹配的精确性以及实时性决定了业务成败。常用的计算句子相似度方法可以用来做句子的模糊匹配,但是不适合大规模文本应用;基于关键词搜索匹配算法如果应用在句子层面的模糊匹配需求上,可以为句子各子串建立多个关键词,会导致关键词数量庞大,匹配规则复杂,匹配效率低下,同样也满足不了对大容量、高速短信内容进行模糊匹配的要求。

发明内容

本发明的目的是解决句子层面大规模匹配时的效率问题,本发明公开的句子层面的快速匹配算法,对于给定的一个源句与海量的句子库,能够在实用的时间开销内找到与源句最为匹配的目标句,同时能给出匹配的相似度。

句子层面的大规模快速匹配方法,实现从大规模的句子中快速查询到与给定句子相似的句子,方法包括索引和查询两个阶段,还包括以下步骤:

(1)对每个句子进行预处理后,把有效编码的字符串作为后续操作的输入;

(2)索引阶段,对待索引的大规模句子中的每一个句子,从句首开始,在长度为L个字符的窗口内寻找某个符合特定条件的字符,并将此字符后面的K个字符组成一个子串,进行哈希编码并建立索引,然后将窗口滑动至索引子串后面的位置,继续以上操作,直到句子结束位置;

(3)查询阶段,对于待查询的新句子,采用与索引阶段相同的方法构建子串并以子串为单位去查找哈希表,得到所有与新句子有相同子串的候选句子以及每个候选句子匹配成功的子串数目,根据匹配成功的子串数目以及候选句子的索引子串数目计算其粗匹配率;

(4)根据粗匹配率,排序所有候选句子,选择最高粗匹配率的M个,句子快速模糊匹配结束。

句子层面的大规模快速匹配方法,所述步骤(4)中选择最高粗匹配率的M个后,采用精确匹配算法计算新句子与这M个候选句子的精确匹配率;选择精确匹配率最高的那个句子,如果其精确匹配率大于某个设定的阀值,那么这个句子作为匹配上的结果,否则未能成功匹配上。

句子层面的大规模快速匹配方法,所述步骤(2)中窗口内寻找字符的特定条件为窗口内字符编码值最小的字符。

句子层面的大规模快速匹配方法,所述精确匹配算法为基于字符串编辑距离算法。

本发明公开的句子层面的快速匹配算法,对于给定的一个源句与海量的句子库,能够在实用的时间开销内找到与源句最为匹配的目标句,同时能给出匹配的相似度。本算法的有益效果是通过建立海量句子冗余索引库以及模糊和精确2层匹配机制,完全可以满足目前的十万、百万级的句子层面匹配的实用需求。经过实际验证,在N等于20多万的短消息业务中,M取值为2就基本不会出现漏检。

附图说明

图1是本发明算法中索引建立以及实际句子匹配应用的流程示意图。

图2是本发明算法中滑动窗移动算法示意图。

具体实施方式

下面对本发明所给出的句子快速匹配算法,结合附图做进一步的解释,具体来说,如附图1所示,算法可以分为索引库建立和匹配查找两个阶段。

为了提高匹配的精确度,算法提供了文本预处理模块对于句子进行预处理,具体来说,包括删除空格、特殊符号等不可能作为匹配关键词的字符;全角半角转换;大小写转换;统一编码转换以支持不同编码句子之间匹配;本模块在索引建立阶段以及匹配阶段均被调用。在预处理之后,所有句子可以看成为一个编码序列,每个字符2个字节。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810107117.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top