[发明专利]一种标签识别方法及装置、存储介质、终端在审
申请号: | 201710881496.1 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107832287A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 汤奇峰;顾春瑛 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 张振军,吴敏 |
地址: | 200072 上海市静安区灵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 识别 方法 装置 存储 介质 终端 | ||
技术领域
本发明涉及互联网信息发布领域,具体地涉及一种标签识别方法及装置、存储介质、终端。
背景技术
对于在互联网上流通的数据,例如,日志、文章、用户评论等,一般都会包含多种不同的属性特征,该属性特征可以用标签(tag,也可称为数据标签、智能标签)描述。基于这样的特性,数据管理平台(Data-Management Platform,简称DMP)需要能够从不同来源、不同种类、不同形式的海量数据中高效、精准的提取每一数据对应的标签,以供后续使用。
在现阶段,常用的标签识别方法主要有人工分类法、价值流程图(Value Stream Mapping,简称VSM)分类法和聚类法。
其中,人工分类法的优点在于识别准确度高,但缺点同样显著,即识别效率低下,尤其在大数据的情况下,人工分类法显然无法应对海量数据的处理量。
VSM分类法通过将所有文档(即待筛数据)向量化,进而比较相似文档的方式,推断出该文档可以对应的标签(也可称为话题,topic)。但是,这种方法计算复杂度高,在在实际应用时无法实现标签的快速识别。
聚类方法同样是将文档转化为向量,但主要通过聚类算法来进行文档分类。较之VSM分类法,采用聚类方法进行标签识别的计算复杂度得到了降低,但生成结果的解释性不高。在实际应用中,需要对聚类结果采用统一的人工标签化,依然需要依靠人为介入,造成人力消耗。
综上所述,在现阶段,大多数情况下,无法提供一种计算复杂度低,但又能快速、精准的从海量数据中识别标签的技术方案。
发明内容
本发明解决的技术问题是如何以更低的计算复杂度在海量数据中实现标签的精准识别。
为解决上述技术问题,本发明实施例提供一种标签识别方法,包括:基于预设语料库分割待筛文本,以获取至少一个关键词;对于每一关键词,查找预设对照表中与所述关键词相对应的标签,以及所述关键词与所述标签的匹配概率,所述预设对照表至少用于记录关键词与标签的对应关系及匹配概率;对所述至少一个关键词的查找结果进行汇总筛选,以确定所述待筛文本的标签。
可选的,在基于预设语料库分割待筛文本之前,所述标签识别方法还包括:获取待筛数据;对所述待筛数据进行预处理,以获取所述待筛文本。
可选的,所述获取待筛数据包括:对于每一数据源,采用与所述数据源的数据传输协议相对应的解析逻辑对来自所述数据源的数据进行处理,以获取所述待筛数据。
可选的,所述对所述待筛数据进行预处理包括:对所述待筛数据包括的字符串进行处理,以获得符合预设规则的待筛文本。
可选的,所述基于预设语料库分割待筛文本包括:对所述待筛文本进行分词处理,以得到至少一个分词结果;对于每一个分词结果,将所述分词结果与所述预设语料库相比较;当比较结果表明所述分词结果记录于所述预设语料库时,确定所述分词结果为关键词。
可选的,所述预设语料库包括至少一个子语料库,所述子语料库与特征领域一一对应。
可选的,所述基于预设语料库分割待筛文本包括:对所述待筛文本进行分词处理,以得到至少一个分词结果;基于所述待筛文本所属的特征领域确定对应的子语料库;对于处理获得的每一个分词结果,将所述分词结果与所述子语料库相比较;当比较结果表明所述分词结果记录于所述子语料库时,确定所述分词结果为关键词。
可选的,所述预设对照表是基于预设模型训练获得的,所述预设模型包括LDA模型。
可选的,所述对所述至少一个关键词的查找结果进行汇总筛选包括:将所述至少一个关键词各自对应的标签进行同类项合并,以获取所述待筛文本对应的标签集合及所述标签集合中每一标签对应的总匹配概率;根据所述总匹配概率筛选所述标签集合,以确定对应于所述待筛文本的标签。
可选的,所述将所述至少一个关键词各自对应的标签进行同类项合并包括:对于对应于相同标签的不同关键词,将所述不同关键词各自对应于所述标签的匹配概率进行累和,以获得对应于所述标签的总匹配概率。
可选的,所述根据所述总匹配概率筛选所述标签集合,以确定对应于所述待筛文本的标签包括:将所述标签集合中总匹配概率高于预设阈值的标签确定为所述待筛文本的标签。
可选的,所述根据所述总匹配概率筛选所述标签集合,以确定所述待筛文本的标签包括:将所述标签集合中总匹配概率最高的预设数量的标签确定为所述待筛文本的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710881496.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能交互方法、设备及存储介质
- 下一篇:中文词语语义相似度的度量方法及装置