[发明专利]一种考虑时空特征的供水用户关注点挖掘方法有效
申请号: | 202110183557.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112905741B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 穆利;朱波;姜元春;吴铭;李浩;王亚琦;钱洋;孔子涵;孙见山 | 申请(专利权)人: | 合肥供水集团有限公司;合肥工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F40/30 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230002*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 时空 特征 供水 用户 关注点 挖掘 方法 | ||
1.一种考虑时空特征的供水用户关注点挖掘方法,其特征是按如下步骤进行:
步骤1、基于时间维度数据,构建T个时间标签;
步骤1.1、获取客服热线数据,所述客服热线数据包括:时间维度数据、空间维度数据以及用户反馈的用水文本数据;
步骤1.2、获取所述客服热线数据中最大的时间跨度;
步骤1.3、将最大的时间跨度均分为T个时间段,从而形成T个时间标签,并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据;
步骤2、基于空间维度数据,构建K′个空间标签;
步骤2.1、抽取客服热线数据中用户的所在地址,并将用户的所在地址转换成经纬度信息;
步骤2.2、使用聚类算法对所述经纬度信息进行聚类,从而获得K′个空间标签,并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据;
步骤3、构建时间-空间标签,并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据;
步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理,得到预处理后的文本数据;
步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词,并选取前N个关键词作为微观上用户对用水的关注点,从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点;
步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析;
步骤6.1、将所有预处理后的用水文本数据整合,并构建语料库;
假设所述语料库中有M条用水文本数据,则所述语料库中所有的词记为其中,表示第m条用水文本数据集合,并有,表示第m条用水数据集合中第i个词,Nm表示第m条用水文本数据中的单词数量,m=1,2,…,M;
步骤6.2、计算语料库中用水文本数据的主题生成概率;
步骤6.2.1、利用式(1)得到第m条用水文本数据中的主题生成概率
式(1)中,表示第m条用水文本数据中主题分布情况,且表示第m条用水文本数据中第k个主题产生的词个数;α表示超参数,θm表示第m条用水文本数据的主题分布,且θm={θm1,θm2,...,θmk,...θmK},θmk表示第m条用水文本数据在第k个主题上的权重,表示第m条用水文本数据对应的主题,且表示第m条用水文本数据中第i个词对应的主题编号,Δ为运算符,且对于任意K维的向量x,有:xk表示K维向量的第k个分量,Γ(·)为伽马函数,且θm服从参数为α的狄利克雷分布,服从参数为θm的多项式分布;
步骤6.2.2、利用式(2)得到所述语料库中所有主题的主题生成概率
式(2)中,表示所述语料库中所有词对应的主题,且
步骤6.3、计算语料库中用水文本数据的词生成概率;
步骤6.3.1、利用式(3)得到第k个主题的词生成概率
式(3)中,表示由第k个主题产生的词,表示词对应的主题,β是超参数,表示语料库中主题k的词分布,且表示第v个词在主题k下所有词中所占权重,V表示语料库中所有不重复词的总数;服从参数为β的狄利克雷分布,服从参数为的多项式分布;表示第k个主题下词的分布情况,且表示第k个主题产生第v个词的个数;
步骤6.3.2、利用式(4)得到所述语料库中所有词的词生成概率
步骤6.4、利用式(5)计算语料库中用水文本数据的联合生成概率
步骤6.5、利用式(6)计算语料库中每个词更新后的主题
式(6)中,表示排除第i个词后,第m条文本数据中第k个主题对应的单词数目,zi表示第i个词对应的主题,表示排除第i个词后,其余单词对应的主题,∝表示正比于,表示排除第i个词后,第k个主题生成的第v个词的数目;
步骤6.6、利用式(7)计算第k个主题的第v个词的权重
步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θmk:
步骤6.8、根据第k个主题的第v个词的权重从第k个主题选取前N个词作为第k个主题的关键词,并作为宏观上用户对用水关注点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥供水集团有限公司;合肥工业大学,未经合肥供水集团有限公司;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183557.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:视觉自动扭缆设备及其系统
- 下一篇:一种开采天然气水合物的方法