[发明专利]基于电力关键词分词的数据检索方法及装置有效

专利信息
申请号: 201410565782.3 申请日: 2014-10-22
公开(公告)号: CN104281702B 公开(公告)日: 2017-07-11
发明(设计)人: 苏雪源;熊军;庄玉林;苏华衍;陈辉河;魏云飞 申请(专利权)人: 国家电网公司;厦门亿力吉奥信息科技有限公司;国网福建省电力有限公司厦门供电公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 深圳市博锐专利事务所44275 代理人: 张明
地址: 361000 福建省厦*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 电力 关键词 分词 数据 检索 方法 装置
【说明书】:

技术领域

发明涉及关键词检索方法,尤其涉及一种基于电力关键词分词的数据检索方法及装置。

背景技术

对于中文搜索引擎而言,中文分词作为其核心技术之一。中文分词技术属于自然语言处理技术范畴,其应用不仅仅局限于中文搜索引擎,它也是中文信息处理中的一个主要组成部分。中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程,它是自然语言处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。中文分词的基本方法包括如下三种:基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法。

基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功识别出一个词。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大最长匹配和最小最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于中文语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

基于统计的分词方案,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字、的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阂值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组。互联网上的搜索引擎是通过搜索引擎爬虫技术,根据一定的策略、运用特定的计算机程序从互联网上抓取新的、公共可访问的web网页、图片和文档资源,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,它的处理对象是互联网网页,而电网设备全景监测平台的台账数据和监测数据都是大量的存储在数据库当中,直接用互联网上的搜索引擎技术无法实现对用户所关心的设备或者设备类型进行全文检索。

电网设备全景监测平台是跨越输、变、配、用多个环节的业务场景,集成了智能电网配电自动化、电能质量监测、用电信息采集、状态监测、生产管理系统等各业务子系统的信息,形成综集综合业务、数据信息、可视化技术为一体的多维度、全方位、立体式的全省统一监测平台,涵盖的数据体量之巨大,靠现有的把各类检测系统的查询菜单简单组合在一起的方式,虽然查询速度快,但是用户需要记忆菜单层级,用户记忆负担较大且操作较为繁琐。又或者是把所有的设备甚至所有的监测系统数据储存在一张表只用一个菜单查询,虽然操作相对简单,但是数据查询速度很慢。

发明内容

本发明所要解决的技术问题是:提供一种操作简单、能够极大地提高数据检索效率的基于电力关键词分词的数据检索方法及装置。

为了解决上述技术问题,本发明采用的技术方案为:提供一种基于电力关键词分词的数据检索方法,包括如下步骤:

S01、在页面上待输入的文本框中输入关键词,其中,所述关键词包括为设备表名、设备类型或者监测主题;

S02、根据输入的关键词构造单次搜索记录解析结构对象,并将关键词切分成两个或两个以上的关键字并形成关键字集合;

S03、判断关键字集合内的关键字是否满足与词库完全匹配的搜索条件,若关键字集合内的关键字均存在于词库中,则在词库中直接获取与关键字关联的设备表名、设备类型、监测主题及权重信息,并存入搜索记录解析结构对象,否则执行步骤S04;

S04、判断搜索词汇集合内的搜索词汇是否满足与词库不完全匹配的搜索条件,若关键字集合内的关键字部分存在于词库中,则根据词库计算出匹配的关键字的权重,并存入搜索记录解析结构对象,否则执行步骤S05;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;厦门亿力吉奥信息科技有限公司;国网福建省电力有限公司厦门供电公司,未经国家电网公司;厦门亿力吉奥信息科技有限公司;国网福建省电力有限公司厦门供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410565782.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top