[发明专利]分布式的级联裂变查询方法及装置在审
申请号: | 201610252466.X | 申请日: | 2016-04-21 |
公开(公告)号: | CN107305568A | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 郭瑞;郭祥 | 申请(专利权)人: | 北京智能管家科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李相雨 |
地址: | 101500 北京市密云县经济开发*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 级联 裂变 查询 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种分布式的级联裂变查询方法及装置。
背景技术
网络、通讯及计算机技术的迅猛发展也极大程度地推动了人工智能技术的进步。在此背景下,语音处理及数据挖掘也受到了越来越多的关注。
语音处理可识别出说话人所说的内容,并将其转化为文本数据,进而可以将这些总量持续增长的数据持久保存下来,以为后续进行数据挖掘,进而进行数据查询提供基础。
目前,数据查询前所进行的离线数据挖掘多使用单线程、单进程处理数据,再加上数据的增长速度十分迅速,导致数据挖掘时间长,挖掘效率低,甚至容易导致系统崩溃,进而影响后续用户查询数据的准确性。
发明内容
为消除现有数据查询中进行离线数据挖掘时存在的数据挖掘时间长、挖掘效率低、甚至容易导致系统崩溃、影响用户查询数据的准确性的弊端,本发明一方面提出了一种分布式的级联裂变查询方法,所述方法包括:
在预设的分布式系统开发框架中创建用于放置裂变词的裂变词文件以及用于放置裂变模式的裂变模式文件;
其中,所述裂变词为用于将语句划分成裂变模式的关键词,所述裂变模式为根据所述语句包含的所述关键词的词性以及包含的其他词语的词性将所述语句进行划分所得的模式;
根据所述裂变词文件中的裂变词以及所述裂变模式文件中的裂变模式进行迭代裂变搜索,以确定裂变词集合和裂变模集合;
根据所述裂变词集合和裂变模集合对待查询语句进行裂变处理,并根据处理结果获取并返回查询结果。
可选地,所述根据所述裂变词文件中的裂变词以及所述裂变模式文件中的裂变模式进行迭代裂变搜索,以确定裂变词集合和裂变模集合,包括:
根据所述裂变词文件中的裂变词以及对预设数量的语料进行标注所获取的标注结果挖掘新的裂变模式,并将所述新的裂变模式放入所述裂变模式文件中;
根据所述裂变模式文件中的所述裂变模式以及所述语料,挖掘新的裂变词,并将所述新的裂变词放入所述裂变词文件中;
交替重复上述挖掘新的裂变模式以及挖掘新的裂变词的步骤,直至不再出现新的裂变模式或新的裂变词,并将最终所得的裂变词文件和裂变模式文件分别作为裂变词集合和裂变模集合。
可选地,所述根据所述裂变词文件中的裂变词以及所述裂变模式文件中的裂变模式进行迭代裂变搜索之前,所述方法还包括:
在所述分布式系统开发框架中对预设数量的语料进行标注,以获取标注结果;
相应地,所述根据所述裂变词集合和裂变模集合对待查询语句进行裂变处理,并根据处理结果获取并返回查询结果,包括:
根据所述标注结果、所述裂变词集合和裂变模集合对待查询语句进行裂变处理,并根据处理结果获取并返回查询结果。
可选地,所述分布式系统开发框架包括但不限于分布式系统基础框架hadoop。
可选地,所述在所述分布式系统开发框架中对预设数量的语料进行标注,包括:
利用hadoop的map/reduce调用分词程序对所述语料中的语句进行分词并按照词性进行标注。
另一方面,本发明还提供了一种分布式的级联裂变查询装置,包括:
文件创建单元,用于在预设的分布式系统开发框架中创建用于放置裂变词的裂变词文件以及用于放置裂变模式的裂变模式文件;
其中,所述裂变词为用于将语句划分成裂变模式的关键词,所述裂变模式为根据所述语句包含的所述关键词的词性以及包含的其他词语的词性将所述语句进行划分所得的模式;
集合确定单元,用于根据所述裂变词文件中的裂变词以及所述裂变模式文件中的裂变模式进行迭代裂变搜索,以确定裂变词集合和裂变模集合;
裂变查询单元,用于根据所述裂变词集合和裂变模集合对待查询语句进行裂变处理,并根据处理结果获取并返回查询结果。
可选地,所述集合确定单元进一步用于:
根据所述裂变词文件中的裂变词以及对预设数量的语料进行标注所获取的标注结果挖掘新的裂变模式,并将所述新的裂变模式放入所述裂变模式文件中;
根据所述裂变模式文件中的所述裂变模式以及所述语料,挖掘新的裂变词,并将所述新的裂变词放入所述裂变词文件中;
交替重复上述挖掘新的裂变模式以及挖掘新的裂变词的步骤,直至不再出现新的裂变模式或新的裂变词,并将最终所得的裂变词文件和裂变模式文件分别作为裂变词集合和裂变模集合。
可选地,所述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智能管家科技有限公司,未经北京智能管家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610252466.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于双层trie树的语句查询方法及装置
- 下一篇:一种信息处理方法及装置