[发明专利]雪茄烟消费者需求洞查的数据字典构建方法在审
申请号: | 202111586460.3 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114265934A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 尹健康;谭方文;刘宁;张卫东;陈奕江;王柯轲;宋红文;江海;张建;杨帆;陶林;刘颖;唐艺楠;陈思佚;郑胜东;徐欣宇;羊正军;欧达宇;刘平;陈立伟;曾立胜 | 申请(专利权)人: | 四川省烟草公司成都市公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/289;G06F40/216;G06Q30/02 |
代理公司: | 成都启慧金舟知识产权代理事务所(特殊普通合伙) 51299 | 代理人: | 文成 |
地址: | 610000 *** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 雪茄烟 消费者 需求 数据 字典 构建 方法 | ||
1.雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,包括以下步骤,
S1,数据源构建:分析搜索引擎的雪茄需求图谱,获取消费者关注度高的关键词,针对这些关键词,对需求图谱中的相关词热度中的词汇进行数据抓取并存入数据库;
S2,对采集数据进行归类:通过搜索引擎查询关键词以获得与雪茄之间的联系,查询后概括出关键词属于雪茄相关的类别,以此形成雪茄的关联规则库,这样就不用对每个关键词进行搜索,按照关联规则,遍历存储关键词的文档,实现关键词自动分类;
S3,对归类数据的聚类:数据归类完成后,采用复杂网络中社区划分方法,实现对归类数据的聚类;
S4,数据字典建立:把原始数据、归类数据和复杂网络分类结果整合,建立数据字典并进行可视化展示,随着数据源更新,数据字典也在不断地扩充。
2.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S1中分析搜索引擎的雪茄需求图谱的过程如下:
通过搜索引擎搜索关键词“雪茄”,对一个时间段出现需求图谱进行研究,统计需求图谱反应“雪茄”搜索指数高的关键词,依次统计每周出现的需求图谱,并进行频次统计,然后剔除频次低于10次的关键词。
3.根据权利要求2所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S1,对需求图谱中的相关词热度中的词汇进行数据抓取并存入数据库的过程如下:
首先获取搜索引擎的搜索指数要爬取url,采用requrests模块中的get请求获取需求图谱页面一整页源码数据,按照如此编程思路,运行代码发现不能获取一整页源码数据;
紧接着,编写程序模拟登录搜索引擎,登录后在调用requests模块中的get请求获取需求图谱一整页源码数据,有了一整页源码数据采用xpath解析源码数据,得到相关词热度板块中的关键词,同时调用Python中xrld模块建立保存文件,并把解析出关键词存入文档中;
最后整合各个模块,调用各个模块中子程序,编写整个主程序,完成爬取和存储整个过程,根据搜索引擎指数数据更新周期编写时间函数,实现存储文件的实时更新。
4.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S2,对采集数据进行归类的过程如下:
首先建立规则库的部分1、2,部分“1”中存放着雪茄词汇的类别指标,部分“2”中存放着对应类别下的相关词汇;
紧接着编写程序对爬取结果文档进行遍历,不断地扩充扩充规则库,代码运行结果;
当规则库中的某个词汇没有对应的指标类别时,即规则库中没有该词汇关联规则,查阅资料后对该词汇新设类别,使该词汇与新设类别相互关联,规则库更新;
有了雪茄与爬取词汇的关联规则,编写程序遍历爬取结果文件,可以实现自动分类。
5.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S3,对归类数据的聚类的具体过程如下:
首先根据雪茄词汇分类指标构建邻接矩阵,并编写对应程序;使用Python库中的networkx库和matplotlib库,导入邻接矩阵对复杂网络进行绘制;然后通过复杂网络社区划分方法GN算法对该网络进行社区划分,选取模块度最大的时候作为划分结果。
6.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述步骤S4,数据字典建立的具体过程如下:
根据构建的雪茄烟消费者需求数据字典,整合各个部分程序,利用python调用PyQT5库、PyEcharts库和Matplotlib库实现数据字典的可视化;
指标网络形成,把复杂网络形成程序封装到应用程序中,添加子窗口显示复杂网络,数据源改变,网络响应也会改变;
根据关键词词汇,把原始数据进行3D可视化展示,调用pyEcharts库实现网络图的绘制,并建立子窗口控件用于显示,随着数据源的改变而动态改变;
数据字典形成,根据整合数据,形成社区的按钮,鼠标点击会显示详细信息,社区下具有哪些指标,指标下有哪些关键词,调用了PyQt5库、Matplotlib库和整合数据形成了数据字典。
7.根据权利要求1所述的雪茄烟消费者需求洞查的数据字典构建方法,其特征在于,所述搜索引擎采用的是百度指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川省烟草公司成都市公司,未经四川省烟草公司成都市公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111586460.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双模式供电的分布式光伏发电系统
- 下一篇:一种医疗康复用背部敲打装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置