[发明专利]一种在任意文本中匹配识别海量关键词的方法有效

申请号：	201811558241.2	申请日：	2018-12-19
公开（公告）号：	CN109783607B	公开（公告）日：	2023-04-25
发明（设计）人：	苗阳	申请（专利权）人：	南京莱斯信息技术股份有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289
代理公司：	江苏圣典律师事务所 32237	代理人：	贺翔
地址：	210000 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种在任意文本中匹配识别海量关键词的方法，包括针对海量关键词库的优化处理、匹配扫描算法的优化，该方法有效解决了在任意的一段文本数据中，快速、精确地识别出存在哪些指定的关键词，而且适用于关键词的数量非常庞大的场景，可以精准且快速的给出识别的关键词、在文本中的位置、以及匹配到的次数。
搜索关键词：	一种任意文本匹配识别海量关键词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种在任意文本中匹配识别海量关键词的方法，其特征在于，包括以下步骤，(1)、关键词库设立：建立一级词库，把原始词库作为二级词库，用以减少一级词库中的词条数量，使一级词库能直接装载到计算机内存中；(2)、关键词的匹配和识别，包括：(2.1)、输入文本X，并定位到文本X的起始位置；(2.2)、自起始位置读取文本X中的一个字符C，以字符C为关键字符Key在一级词库中查找，若不存在该字符C则重新读取字符C的下一个字符再在一级词库中查找直至找到一级词库中存在对应的字符后，进入步骤(2.3)；(2.3)、取一词级库中Key对应的长度L和尾字符T，依据长度L和尾字符T，判断文本X剩余长度是否大于等于L，并且当前位置+L处的字符是否等于T，如不匹配则回到步骤(2.2)，如匹配则进入步骤(2.4)；(2.4)、从文本X当前位置取L长度子串S，到二级词库中进行完整匹配；若在二级词库中未找到匹配则回到步骤(2.2)，如在二级词库中找到匹配则进入步骤(2.5)；(2.5)、记录匹配结果，并直接跳过L长度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京莱斯信息技术股份有限公司，未经南京莱斯信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811558241.2/，转载请声明来源钻瓜专利网。

上一篇：数据处理方法、装置、计算机设备和存储介质
下一篇：目标假设的确定方法、装置、可读存储介质和电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在任意文本中匹配识别海量关键词的方法有效

专利文献下载