[发明专利]药品分词搜索方法及系统有效

专利信息
申请号: 202010822855.8 申请日: 2020-08-17
公开(公告)号: CN111681769B 公开(公告)日: 2020-11-13
发明(设计)人: 卓建飞;胡茂华;王新岐 申请(专利权)人: 耀方信息技术(上海)有限公司
主分类号: G06F40/242 分类号: G06F40/242;G06F40/247;G06F40/284;G16H50/70;G16H70/40
代理公司: 上海一平知识产权代理有限公司 31266 代理人: 成春荣;竺云
地址: 201201 上海市浦东*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 药品 分词 搜索 方法 系统
【说明书】:

本申请涉及互联网技术领域,公开了一种药品分词搜索方法及系统,该方法包含:预先根据已有的药品数据建立药品词典,并且设定规则词典;根据药品词典对输入的搜索字符串进行多路径分词,得到多路径分词结果,其中,如果多路径分词结果的最粗粒度路径中至少有一组连续单字的单字数量在预设范围内,则根据规则词典中的特征词对搜索字符串进行分词;使用多路径分词结果进行药品搜索。本申请对医药行业的新词、未标注词的切分效率和准确率都更高,且能够减少人工标注的成本。

技术领域

本申请涉及互联网技术领域,特别涉及药品搜索技术领域。

背景技术

目前,通过互联网进行药品搜索已经越来越普遍,当前业界主流的分词方法,主要围绕着基于词典、基于统计、基于理解的三个方向在扩展和延伸,虽然这些常规的做法基本满足现代汉语、日常用语的分词,但由于药品搜索的特殊性,医药词汇有着偏僻词多、词义模糊、语义模糊等特点,造成现有模型无法满足医药行业的分词需求。

例如,常见的药品名称:万高厄贝沙坦氢氯噻嗪分散片,许多分词器的原生模型得到的结果为(例如IK分词器):万,高,厄,贝,沙,坦,氢,氯,噻,嗪,分散,片。

可见,这样的药品分词结果过于零散、模糊,用户输入药品名称时,只能搜索出包含这些字眼的内容,造成大量的相关性较弱的内容被召回回来,无法满足在搜索中精确搜索、丢词搜索的需求,迫使用户需要更改关键词进行多次搜索,影响体验的同时还加大了服务器的处理压力。

发明内容

本申请的目的在于提供一种药品分词搜索方法及系统,能够弥补现有技术中难以发现新词、标注不全面的弊端,对新词、未标注词的切分效率和准确率都更高,且能够减少人工标注的成本。

本申请公开了一种药品分词搜索方法,包含:

预先设定药品词典和规则词典,其中所述药品词典包括已标注的医药词条,所述规则词典包括剂型特征词、高频特征词和组成特征词;

根据所述药品词典对输入的搜索字符串进行多路径分词,得到多路径分词结果,其中,如果所述多路径分词结果的最粗粒度路径中至少有一组连续单字的单字数量在预设范围内,则根据所述规则词典中的剂型特征词、高频特征词和组成特征词对所述搜索字符串进行分词,其中,如果相邻的特征词之间的连续单字的单字数量在预设范围内,则将所述相邻的特征词之间的连续单字合并为一个组合词,并将包含该组合词的分词结果作为一条新的路径加入到所述多路径分词结果;

使用所述多路径分词结果进行药品搜索。

在一个优选例中,所述设定规则词典,包含以下子步骤:

分别建立药品的剂型规则词表、药品的高频特征规则词表、以及药品的组成特征规则词表;以及

将所述药品的剂型规则词表、药品的高频特征规则词表、以及药品的组成特征规则词表的数据进行合并,生成规则词典。

在一个优选例中,所述根据所述药品词典对输入的搜索字符串进行多路径分词,进一步包括:

调用第一分词服务,通过加载常规的现代汉语分词模型,再增量装载药品词典,构建双数组Trie树,使所述第一分词服务基于所述现代汉语分词模型和药品词典对普通词条和已标注的医药词条进行切分处理,得到粗分词网;

使用正向/逆向最大粒度匹配原则选取最优的两条路径,所述路径按照粒度降序排列,当正向/逆向分词粒度大小一致时,根据概率模型计算概率,如果概率不同,则选取最大概率的词条组成分词结果,如果概率一样,则取逆向分词作为分词结果,得到最终的多分词路径;

对所述多分词路径的多条路径做排序,按粒度大小降序排列。

在一个优选例中,所述根据所述规则词典中的特征词对所述搜索字符串进行分词,进一步包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于耀方信息技术(上海)有限公司,未经耀方信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010822855.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top