[发明专利]句子层面的大规模快速匹配方法有效
申请号: | 200810107117.4 | 申请日: | 2008-07-17 |
公开(公告)号: | CN101329680A | 公开(公告)日: | 2008-12-24 |
发明(设计)人: | 陈志刚;胡国平;胡郁;刘庆峰;王仁华 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 合肥天明专利事务所 | 代理人: | 袁由茂 |
地址: | 230088安徽省合肥*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 层面 大规模 快速 匹配 方法 | ||
1.句子层面的大规模快速匹配方法,包括索引和查询两个阶段,其特征在于还包括以下步骤:
(1)对每个句子进行预处理后,把有效编码的字符串作为后续操作的输入;
(2)索引阶段,对待索引的大规模句子中的每一个句子,从句首开始,在长度为L个字符的窗口内寻找某个符合特定条件的字符,并将此字符后面的K个字符组成一个子串,进行哈希编码并建立索引,然后将窗口滑动至索引子串后面的位置,继续以上操作,直到句子结束位置;
(3)查询阶段,对于待查询的新句子,采用与索引阶段相同的方法构建子串并以子串为单位去查找哈希表,得到所有与新句子有相同子串的候选句子以及每个候选句子匹配成功的子串数目,根据匹配成功的子串数目以及候选句子的索引子串数目计算其粗匹配率;
(4)根据粗匹配率,排序所有候选句子,选择最高粗匹配率的M个,句子快速模糊匹配结束。
2.根据权利要求1所述的句子层面的大规模快速匹配方法,其特征在于所述步骤(4)中选择最高粗匹配率的M个后,采用精确匹配算法计算新句子与这M个候选句子的精确匹配率;选择精确匹配率最高的那个句子,如果其精确匹配率大于某个设定的阀值,那么这个句子作为匹配上的结果,否则未能成功匹配上。
3.根据权利要求1所述的句子层面的大规模快速匹配方法,其特征在于所述步骤(2)中窗口内寻找字符的特定条件为窗口内字符编码值最小的字符。
4.根据权利要求2所述的句子层面的大规模快速匹配方法,其特征在于所述精确匹配算法为基于字符串编辑距离算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810107117.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能感应荧光灯具
- 下一篇:一种热敏打印头及其制造方法