[发明专利]一种中文词条检索方法在审

申请号：	201310690790.6	申请日：	2013-12-17
公开（公告）号：	CN103631960A	公开（公告）日：	2014-03-12
发明（设计）人：	秦谦	申请（专利权）人：	江苏名通信息科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	212000 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文词条检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机网络搜索引擎检索领域，具体涉及一种中文词条检索方法。

背景技术

随着互联网数据量越来越大，用户从大数据中检索相关数据的时间越来越长。服务器性能随之产生浪费，如何解决大数据下快速检索的功能成为了研究的课题。

现在有技术上有sphinx全文检索引擎+scws中文分词系统的架构方案，sphinx全文检索引擎+scws中文分词系统他的缺点部署稍复杂，使用稍复杂。

发明内容

本发明克服了现有技术的不足，提供一种简化的中文词条检索方法。

为解决上述技术问题，本发明采用的技术方案为：

一种中文词条检索方法，包括以下步骤：

1）用户通过http|get/post接口输入中文词条，分词系统介入，对用户检索的关键词进行分词；

2）在索引文件中查询，查询出的关键词结果高亮显示，生成内容摘要，返回数据格式；

3）用户通过http|get/post接口输入的中文词条进行增删改时，上述操作进入队列控制器等待；

4）根据先入先出原则，数据源进入数据库分布控制层（控制层，更具全局hashid分布，双机备份），将数据更新到数据库中；

5）调用sphinx索引服务层，进行索引的建立；此时的索引是临时索引不影响主索引的使用，当临时索引达到一定的级别，将和主索引进行归档合并，一定的级别为配置文件通过设置临时索引的限制条数实现。

所述步骤2）数据格式包括json和xml。

较优地，步骤1分词系统包括：

分词模块：用于对中文文本按词语语义进行分词；

匹配模块：用于匹配分词模块进行分词后的词条与知识库中的数据；

知识库：存储中文词条信息库。

较优地，队列控制器包括：限制计数器、可用计数器、指针计数器、要求控制器与存取控制器，指针计数器指示当前词条索引位置。

与现有技术相比，本发明的有益效果有：本发明简化优化了中文词条检索方法，产生新的架构方案，新方案能快速高效的对大数据进行分词，建立高效索引。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

一种中文词条检索方法，包括以下步骤：

1）用户通过http|get/post接口输入中文词条，分词系统介入，对用户检索的关键词进行分词；

2）在索引文件中查询，查询出的关键词结果高亮显示，生成内容摘要，返回数据格式；

3）用户通过http|get/post接口输入的中文词条进行增删改时，上述操作进入队列控制器等待；

4）根据先入先出原则，数据源进入数据库分布控制层（控制层，更具全局hashid分布，双机备份），将数据更新到数据库中；

所述步骤2）数据格式包括json和xml。

较优地，步骤1分词系统包括：

分词模块：用于对中文文本按词语语义进行分词；

匹配模块：用于匹配分词模块进行分词后的词条与知识库中的数据；

知识库：存储中文词条信息库；

较优地，队列控制器包括：限制计数器、可用计数器、指针计数器、要求控制器与存取控制器，限制计数器、可用计数器、指针计数器、要求控制器与存取控制器相连。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司，未经江苏名通信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310690790.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种中文词条检索方法在审

专利文献下载