[发明专利]一种基于社交媒体的社会群体认知指数构建方法有效
申请号: | 201910685348.1 | 申请日: | 2019-07-27 |
公开(公告)号: | CN110442865B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 郑昱 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/21;G06F16/28;G06K9/62;G06Q50/00 |
代理公司: | 青岛高晓专利事务所(普通合伙) 37104 | 代理人: | 张清东 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于社交媒体语义分析技术领域,具体涉及一种基于社交媒体的社会群体认知指数构建方法;本发明提出了基于社交媒体的社会群体认知指数的构建方法,通过对于非社会群体认知特征主题与社会群体认知特征的差异分析,在不同地域和不同时间内,分别获取基于社交媒体的社会群体认知表达性指数和基于社交媒体的社会群体认知能动性指数,得到可以进行不同时间、地域比较的社会群体认知指数;消除了个体主观因素对数据收集的影响,有助于更为精确地进行社会群体认知状况评估。本发明在多层级水平上构建社会认知指数,有助于根据不同地域特征进行当地居民的社会群体认知数据纵向采集,实现区域社会群体认知的多维度比较评估。 | ||
搜索关键词: | 一种 基于 社交 媒体 社会群体 认知 指数 构建 方法 | ||
【主权项】:
1.一种基于社交媒体的社会群体认知指数构建方法,其特征在于:包括以下步骤:(1)目标群体选取:根据9个社会阶层分类确定11个目标群体特征词,包括领导、经理、老板、专家、教授、医生、农民、服务员、工人、白领、公务员,获取社交媒体账号所发布的推文中包含目标群体特征词的推文;(2)数据预处理:对社交媒体账号所发布的推文做分词处理,去除无用符号,得到账号特征词;删除无文字内容推文;采用词袋模型来表征账号,词袋模型是基于自然语言处理和信息检索下被简化的一种表达模型,此模型无需考虑文法以及词的顺序;(3)特征词选取:根据社会认知基本维度中文形容词词库的两个基本维度:能动性维度和表达性维度的特征词进行选取;按照社会认知基本维度中文形容词词库,其中表达性维度的特征词包括友好、善良、可靠、热情、和蔼、真诚,能动性维度的特征词包括有能力、自信、上进、高效、聪明、努力;(4)特征词扩展:寻找社会认知两个基本维度特征词的近义词,对已有特征词进行扩展;利用哈工大信息检索研究室同义词词林扩展版HIT IR‑Lab Tongyici Cilin (extended)进行特征词的扩展,HIT IR‑Lab Tongyici Cilin(extended)按照树状的层次结构把同义词分成了大、中、小三类;(5)数据库建立:选取目标时间区间的社交媒体推文构建数据库,包括社会群体认知两个基本维度所涉及的特征词,建立目标数据库,命名SC数据库(social cognition);随机抽样相等数量的非社会群体认知基本维度的特征词其中,表达主题包括事件和经历,生活方式,运动、社区参与和实践活动,建立控制变量数据库,命名CV数据库(control variable);(6)社会群体认知模型构建:采用机器学习技术中的K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立SC数据库模型;基于CV数据库的社会群体认知模型构建:采用K近邻算法分类识别两种基本维度的特征词,基于SC和CV数据库作为二分类别框架建构模型,采用多层级线性回归模型,建立CV数据库模型;(7)社会群体认知指数构建:基于社会群体认知模型,确定社交媒体账号使用者社会群体认知表达与非社会群体认知表达在其推文中的频次;构建社会群体认知指数(Social Group Cognition Index,SGCI),社会群体认知指数的计算是基于社交媒体账号社会群体认知与非社会群体认知之间的差异,包括社会群体认知表达性指数(SGCI_communion)和社会群体认知能动性指数(SGCI_agency)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910685348.1/,转载请声明来源钻瓜专利网。