[发明专利]业务词库的构建方法、装置、服务器及可读存储介质在审
申请号: | 201910002448.X | 申请日: | 2019-01-02 |
公开(公告)号: | CN110008464A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 周书恒;祝慧佳;赵智源;郭亚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/335 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词库 候选短语 业务文本 构建 可读存储介质 新词发现 发现 更新 服务器 判定 检测 | ||
1.一种业务词库的构建方法,包括:
对业务文本进行新词发现,获取到一个或多个候选短语;
检测获取到的每个候选短语是否在业务词库中;
在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为新词;在判定出该候选短语为新词时,将该候选短语添加到所述业务词库中。
2.如权利要求1所述的构建方法,在每检测到一个候选短语不在所述业务词库中时,所述方法还包括:
在所述业务文本中将该候选短语以特定显示方式进行显示,其中,所述特定显示方式与所述业务文本中非候选短语的显示方式不同。
3.如权利要求2所述的构建方法,所述获取针对该候选短语是否为新词的评测数据,具体包括:
在所述业务文本中将该候选短语以所述特定显示方式进行显示情况下,获取针对该候选短语是否为新词的人工投票数据,其中,所述人工投票数据作为所述评测数据。
4.如权利要求3所述的构建方法,所述根据该候选短语对应的评测数据,判定该该候选短语是否为新词,具体包括:
从该候选短语对应的人工投票数据中获取判定该候选短语为新词的投票比例;
根据该候选短语对应的投票比例,判定该候选短语是否为新词。
5.权利要求4所述的构建方法,所述根据该候选短语对应的投票比例,判定该候选短语是否为新词,具体包括:
检测该候选短语对应的投票比例是否不小于预设比例,得到检测结果;
根据所述检测结果,判定该候选短语是否为新词。
6.如权利要求1所述的构建方法,所述在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为新词;在判定出该候选短语为新词时,将该候选短语添加到所述业务词库中,具体包括:
在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为业务新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为业务新词;在判定出该候选短语为业务新词时,将该候选短语添加到所述业务词库中,其中,所述业务新词为与业务特性相关的词。
7.一种业务词库的构建装置,包括:
新词发现单元,用于对业务文本进行新词发现,获取到一个或多个候选短语;
检测单元,用于检测获取到的每个候选短语是否在业务词库中;
新词添加单元,用于在每检测到一个候选短语不在所述业务词库中时,获取针对该候选短语是否为新词的评测数据;根据该候选短语对应的评测数据,判定该该候选短语是否为新词;在判定出该候选短语为新词时,将该候选短语添加到所述业务词库中。
8.如权利要求7所述的构建装置,还包括:
特定显示单元,用于在每检测到一个候选短语不在所述业务词库中时,在所述业务文本中将该候选短语以特定显示方式进行显示,其中,所述特定显示方式与所述业务文本中非候选短语的显示方式不同。
9.如权利要求8所述的构建装置,所述新词添加单元,具体用于在所述业务文本中将该候选短语以所述特定显示方式进行显示情况下,获取针对该候选短语是否为新词的人工投票数据,其中,所述人工投票数据作为所述评测数据。
10.如权利要求9所述的构建装置,所述新词添加单元,具体用于从该候选短语对应的人工投票数据中获取判定该候选短语为新词的投票比例;根据该候选短语对应的投票比例,判定该候选短语是否为新词。
11.权利要求10所述的构建装置,所述新词添加单元,具体用于检测该候选短语对应的投票比例是否不小于预设比例,得到检测结果;根据所述检测结果,判定该候选短语是否为新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910002448.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于事件抽取的方法、装置和计算机可读介质
- 下一篇:句子语义距离的度量方法