[发明专利]基于词库的匹配推荐方法、电子装置及存储介质在审
申请号: | 202010131727.9 | 申请日: | 2020-02-29 |
公开(公告)号: | CN111339166A | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 苏显政;蔡健 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词库 匹配 推荐 方法 电子 装置 存储 介质 | ||
本发明涉及数据推荐技术,提供了一种基于词库的匹配推荐方法、电子装置及存储介质。该方法从预设数据库读取对象名称和对象属性数据,将读取到对象名称和对象属性数据转换为词汇列表并添加至预先确定的词库中,对读取到的对象名称执行分词处理,将分词后的每个词添加至词库中相匹配的词集,为该词集匹配的词建立多级索引表,接收用户输入的待匹配对象名称后执行分词处理得到初始词集,将初始词集与多级索引表进行匹配,得到与初始词集中的词匹配的目标对象集,基于预设的多个筛选条件从目标对象集筛选出对象推荐给用户。本发明可以减少匹配过程所需的内存空间,缩短了计算时间,实现了大批量数据场景下的快速模糊匹配。
技术领域
本发明涉及数据推荐领域,尤其涉及一种基于词库的匹配推荐方法、电子装置及存储介质。
背景技术
模糊匹配目前常用的方法是关键词相似度匹配,对象名称(例如,公司名称)的模糊匹配是将用户输入的不规范对象名称匹配到相应的规范对象名称上,由于人为输入的不确定性(例如,将人民银行写成人行),很大程度上增加了匹配的难度,另外基于关键字相似度的匹配技术通常是对数据库进行全表扫描,当数据量达到百万级、千万级的时候,匹配的效率低,且占用系统内存极大。
发明内容
鉴于以上内容,本发明提供一种基于词库的匹配推荐方法、电子装置及存储介质,其目的在于解决现有技术中模糊匹配效率低且占用系统内存大的问题。
为实现上述目的,本发明提供一种基于词库的匹配推荐方法,该方法包括:
初始化步骤:从预设数据库读取对象名称和对象属性数据,将读取到的对象名称和对象属性数据转换为词汇列表并添加至预先确定的词库中;
分词步骤:对读取到的对象名称执行分词处理,将分词后的每个词添加至所述词库中相匹配的词集,其中,所述词集包括第一、第二及第三词集,分别对所述第一、第二及第三词集相匹配的词建立对应的一级、二级及三级索引表;
匹配步骤:接收用户输入的待匹配对象名称,对所述待匹配对象名称执行分词处理得到初始词集,将所述初始词集与所述一级、二级及三级索引表进行匹配,得到与所述初始词集中的词匹配的目标对象集;及
推荐步骤:当所述目标对象集包含多个对象时从所述多个对象中筛选出满足第一条件的对象,当所述满足第一条件的对象的数量为预设值时,将该对象推荐给所述用户,或者,当所述满足第一条件的对象的数量不为预设值时,从所述满足第一条件的对象中筛选出满足第二条件的对象,若所述满足第二条件的对象的数量为预设值,则将该对象推荐给所述用户,否则从所述满足第二条件的对象中筛选出满足第三条件的对象,并将该对象推荐给所述用户。
优选的,所述对读取到的对象名称执行分词处理包括:
根据正向最大匹配法将读取到的对象全称与所述词库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第二数量的单字;
根据逆向最大匹配法将读取到的对象全称与所述词库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第三数量的第二词组和第四数量的单字;
若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量,或者,若所述第一数量小于所述第三数量,则将所述第一匹配结果作为该对象全称的分词结果;
若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量,或者,若所述第一数量大于所述第三数量,则将所述第二匹配结果作为该对象全称的分词结果。
优选的,所述匹配步骤包括:
筛选出一级索引表中包含初始词集的词对应的第一对象集,从所述第一对象集中查找是否存在包含二级索引表的词对应的第二对象集,当未从所述第一对象集中查找到所述第二对象集时,将所述第一对象集作为目标对象集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010131727.9/2.html,转载请声明来源钻瓜专利网。