[发明专利]用户标签匹配方法、装置、设备及存储介质在审
申请号: | 202110691806.X | 申请日: | 2021-06-22 |
公开(公告)号: | CN113343689A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 郑成凯;宋梓涵 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/31;G06F16/33;G06F16/35 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 标签 匹配 方法 装置 设备 存储 介质 | ||
1.一种用户标签匹配方法,其特征在于,所述用户标签匹配方法包括:
获取包含用户标签的多个文本;
对包含用户标签的所述各文本进行切分,得到对应的多个切分组合;
基于动态规划算法,计算所述各切分组合中的最大概率组合,得到最优切分组合;
对所述最优切分组合中的第一切分词进行位置标注,生成位置标注信息,并根据位置标注信息构建倒排索引;
接收用户标签匹配请求,并根据所述位置标注信息对所述请求进行索引,输出与所述请求匹配的用户标签。
2.根据权利要求1所述的用户标签匹配方法,其特征在于,在所述获取包含用户标签的多个文本之后,还包括:
将所述各文本导入预置语料库,其中,所述语料库包括自定义词表和停用词表,所述自定义词表包含多个用户标签;
对所述各文本进行数据清洗,以剔除所述各文本中的异常字符。
3.根据权利要求2所述的用户标签匹配方法,其特征在于,所述对包含用户标签的所述各文本进行切分,得到对应的多个切分组合包括:
加载所述自定义词表及所述停用词表,建立字典树;
利用结巴分词方法,根据所述自定义词表及所述停用词表对所述各文本进行分词,得到多个第二切分词及多个第二切分词权重;
将所述多个第二切分词及所述多个第二切分词权重写入所述字典树;
基于所述字典树,对所述各第二切分词进行词图扫描,生成对应的有向无环图,其中,所述有向无环图包括所述各文本对应的多个切分组合。
4.根据权利要求3所述的用户标签匹配方法,其特征在于,所述利用结巴分词方法,根据所述自定义词表及所述停用词表对所述各文本进行分词,得到多个第二切分词及多个第二切分词权重包括:
利用结巴分词方法,根据所述自定义词表及所述停用词表对所述各文本进行分词和词性标注,得到带有词性标注信息的多个关键词;
基于TF-IDF算法,对所述多个关键词数据进行计算,得到所述各关键词对应的多个TF值及多个IDF值;
根据所述各TF值,对所述各关键词进行降序排列,并将排在前列的M个关键词作为多个第二切分词,以及将与所述各第二切分词对应的M个IDF值作为多个第二切分词权重。
5.根据权利要求3所述的用户标签匹配方法,其特征在于,所述基于动态规划算法,计算所述各切分组合中的最大概率组合,得到最优切分组合包括:
基于动态规划算法,对所述有向无环图中包含的所述多个切分组合进行路径分析,得到对应的多个切分路径;
计算所述各切分路径中的最大概率路径,并将所述最大概率路径对应的切分组合作为最大概率组合,得到对应的最大概率组合;
基于隐马尔科夫模型的基本假设,采用一元语言模型对所述最大概率组合中未在所述自定义词表及所述停用词表中出现的切分词进行分词,得到最优切分组合。
6.根据权利要求3所述的用户标签匹配方法,其特征在于,所述对所述最优切分组合中的第一切分词进行位置标注,生成位置标注信息,并根据位置标注信息构建倒排索引包括:
获取所述最优切分组合中的第一切分词及第一切分词权重;
基于所述第一切分词权重,获取所述最优切分组合中的第一切分词,得到第一切分词位置标注信息;
基于所述第一切分词位置标注信息,创建自适应倒排表,并调整所述倒排表的存储结构,得到倒排索引文件。
7.根据权利要求6所述的用户标签匹配方法,其特征在于,所述接收用户标签匹配请求,并根据所述位置标注信息对所述请求进行索引,输出与所述请求匹配的用户标签包括:
接收用户标签匹配请求;
基于所述倒排索引文件,利用所述位置标注信息,对所述请求进行索引,得到所述请求在所述倒排索引文件中的位置信息;
根据所述位置信息,输出与所述请求匹配的用户标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110691806.X/1.html,转载请声明来源钻瓜专利网。