[发明专利]业务词库的构建方法、装置、服务器及可读存储介质在审
申请号: | 201910002448.X | 申请日: | 2019-01-02 |
公开(公告)号: | CN110008464A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 周书恒;祝慧佳;赵智源;郭亚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词库 候选短语 业务文本 构建 可读存储介质 新词发现 发现 更新 服务器 判定 检测 | ||
本说明书实施例公开了一种业务词库的构建方法,通对业务文本进行新词发现,获取到一个或多个候选短语,以及在每检测到一个候选短语不在所述业务词库中时,若判定出该候选短语为新词,则将该候选短语添加到所述业务词库中,如此,随着业务文本不断更新,会源源不断发现新词并添加到所述业务词库中,从而促使业务词库会持续更新,由于新词是在业务文本中发现的,而业务文本与业务词库对应,从而使得发现的新词也与所述业务词库对应,从而能够提高业务词库的构建质量。
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种业务词库的构建方法、装置、服务器及可读存储介质。
背景技术
现有技术中,分词是自然语言处理中的基础能力,在英文中,空格作为天然的分隔符可以方便地对句子进行分词工作。而在中文领域,则没有特殊符号来标志某个词的开始或者结束,如此,在中文中对语义的理解过程中,分词又是又特别重要的,因此,构建具有领域属性的业务词库对分词、句法语义分析、信息抽取等任务大有裨益。
现有技术在构建业务词库时,通常以开源的基础词库为基础,但由于开源的词库基本不会持续更新,而随着时间的推移,对应领域的文本越来越多、新词不断出现,此时业务词库的更新将会进入停滞状态。
发明内容
本说明书实施例提供了一种业务词库的构建方法、装置、服务器及可读存储介质,能够促使业务词库会持续更新,且能够提高业务词库的构建质量。
本说明书实施例第一方面提供了一种业务词库的构建方法,包括:
对业务文本进行新词发现,获取到一个或多个候选短语;
检测获取到的每个候选短语是否在业务词库中;
在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为新词;在判定出该候选短语为新词时,将该候选短语添加到所述业务词库中。
本说明书实施例第二方面提供了一种业务词库的构建装置,包括:
新词发现单元,用于对业务文本进行新词发现,获取到一个或多个候选短语;
检测单元,用于检测获取到的每个候选短语是否在业务词库中;
新词添加单元,用于在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为新词;在判定出该候选短语为新词时,将该候选短语添加到所述业务词库中。
本说明书实施例第三方面还提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述业务词库的构建方法的步骤。
本说明书实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时上述业务词库的构建方法的步骤。
本说明书实施例的有益效果如下:
基于上述技术方案,通对业务文本进行新词发现,获取到一个或多个候选短语,以及在每检测到一个候选短语不在所述业务词库中时,若判定出该候选短语为新词,则将该候选短语添加到所述业务词库中,如此,随着业务文本不断更新,会源源不断发现新词并添加到所述业务词库中,从而促使业务词库会持续更新,由于新词是在业务文本中发现的,而业务文本与业务词库对应,从而使得发现的新词也与所述业务词库对应,从而能够提高业务词库的构建质量。
附图说明
图1为本说明书实施例中业务词库的构建方法的方法流程图;
图2为本说明书实施例中业务词库的构建方法的步骤流程图;
图3为本说明书实施例中业务词库的构建装置的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910002448.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于事件抽取的方法、装置和计算机可读介质
- 下一篇:句子语义距离的度量方法