[发明专利]一种基于社交数据的人物性格分析方法在审

专利信息
申请号: 201910046869.2 申请日: 2019-01-18
公开(公告)号: CN109766452A 公开(公告)日: 2019-05-17
发明(设计)人: 刘磊;郑瑶;陈浩;吴爽;孙应红;李静 申请(专利权)人: 北京工业大学
主分类号: G06F16/36 分类号: G06F16/36;G06F17/27;G06Q50/00
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 吴荫芳
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 本发明针对人物性格分析问题,提出了一种基于社交数据的人物性格分析方法。主要内容包括:对微博语料进行预处理;建立性格‑表情符号词典、性格‑表情数量词典、性格‑词类别词典、性格‑文本情感词典、性格‑配图数量词典、性格‑配图结构词典;进行表情分析、文本分析、配图分析以及博文情感倾向概括分析,最后通过给出人物性格的大五人格雷达图,来表示人物性格。本专利按照大五人格将社交用户的性格进行归类,对社交中用户的不同表情、表达方式、配图以及情绪进行数据分析,给出人物性格对应的大五人格雷达图。本发明可以帮助相关公司、企业及政府部门有效地分析社交用户的性格特点。
搜索关键词: 人物性格 分析 社交数据 雷达图 预处理 表情 表达方式 表情分析 表情符号 情感倾向 数据分析 文本分析 文本情感 性格特点 政府部门 图结构 有效地 归类 微博 语料 情绪 帮助
【主权项】:
1.一种基于社交数据的人物性格分析方法,包括以下步骤:步骤(1)微博语料获取和预处理,预处理后的微博语料记作U,其中U={u1,u2,...,un},任意u∈U表示一个微博博主的所有特征信息,u进一步被表示为u={account,fans_number,following_number,blog_quantity,blog_assemble}其中account表示博主账户名,fans_number表示博主的粉丝数,following_number表示博主关注数,blog_quantity表示博文数量,blog_assemble表示博文集合,blog_assemble进一步被表示为blog_assemble={b1,b2,...,bn},任意b∈blog_assemble表示一篇博文的所有特征信息,每一篇博文b进一步被表示为b={text_content,picture_structure,picture_account,emoji}其中text_content表示博文文本内容,picture_structure表示博文图片结构,picture_account表示博文图片数量,emoji表示博文表情符号集合,emoji进一步定义:emoji={(ec1,w1),…,(ecn,wn)}其中ec表示某个表情符号,w表示该表情符号在一篇博文中出现的数量;步骤(2)利用微博语料库U,经过专家分析,人工构建了6个性格词典,即性格‑表情符号词典CEC_dic、性格‑表情数量词典CEQ_dic、性格‑词类别词典CTC_dic、性格‑文本情感词典CTE_dic、性格‑配图数量词典CPQ_dic和性格‑配图结构词典CPS_dic;其中,性格‑表情符号词典CEC_dic,记作CEC_dic(ec)=(v1,v2,v3,v4,v5),用于表示表情符号Ec所对应的大五人格Q的衡量值,衡量值的范围是0到1的数值,Ec={ec1,ec2,...,ecn},ec表示一种表情符号,(v1,v2,v3,v4,v5)表示表情符号所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;性格‑表情数量词典CEQ_dic,记作CEQ_dic(Eq)=(v1,v2,v3,v4,v5),用于表示表情符号数量Eq所对应的大五人格Q的衡量值,衡量值的范围是0到1的数值,(v1,v2,v3,v4,v5)表示表情符号数量所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;性格‑词类别词典CTC_dic,记为CTC_dic(tc)=(v1,v2,v3,v4,v5),用于表示微博博文中词类别Tc所对应的大五人格Q的衡量值,衡量值的范围是0到10的整数值,Tc={tc1,tc2,...,tcn},其中,tc表示一种词的分类,(v1,v2,v3,v4,v5)表示微博博文中词类别所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;性格‑文本情感词典CTE_dic,记为CTE_dic(Te)=(v1,v2,v3,v4,v5),用于表示微博博文中文本情感Te所对应的大五人格Q的衡量值,衡量值的范围是0到1的数值,Te表示正面情感、负面情感,以及中性情感,(v1,v2,v3,v4,v5)表示微博博文中文本情感所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;性格‑配图数量词典CPQ_dic,记为CPQ_dic(Pq,Vq)=(v1,v2,v3,v4,v5),用于表示微博博文中配图数量所对应的大五人格Q的衡量值,衡量值的范围是0到10的整数值,Pq表示图片数量,Vq表示视频数量,(v1,v2,v3,v4,v5)表示微博博文中配图数量所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;性格‑配图结构词典CPS_dic,记为CPS_dic(Ps)=(v1,v2,v3,v4,v5),用于表示微博配图结构分类Ps所对应的大五人格Q的衡量值,衡量值的范围是0到10的整数值,Ps表示微博博文中的配图结构,具体有两种情况,即配图顺序排版结构,以及配图非顺序排版结构,(v1,v2,v3,v4,v5)表示微博配图结构分类所对应的大五人格Q={q1,q2,q3,q4,q5}的衡量值;步骤(3)构建性格分析模型,对指定博主进行性格分析,根据步骤(1)中的定义,一个博主u的博文集合blog_assemble={b1,b2,…bn},对博主的每一条博文b∈blog_assemble,执行步骤(3.1)‑(3.4)步骤(3.1)进行表情分析(1)根据性格‑表情词典,得到当前博文中表情对应五种人格的初始得分,将博文表情集合emoji中所有表情的分数进行加权平均计算,得到博文表情集合对应的五种人格Q分数为:其中(ec,w)∈emoji(2)统计当前博文中出现的表情符号总数Eq,即对所有(ec,w)∈emoji,计算Eq=w1+...+wn,根据性格‑表情数量词典CEQ_dic,得到当前博文对应的五种人格Q的分数(v1,v2,v3,v4,v5),即CEQ_dic(Eq);(3)将当前博文的E(emoji)和CEQ_dic(Eq)对应相乘,得到基于博文表情分析的人格分数E(b);E(b)=E(emoji)·CEQ_dic(Eq)      (2)步骤(3.2)进行文本分析(1)参照心理学领域的LIWC2007的词库分类体系和中文SC‑LIWC词库,统计博文内容text_content中词类Tc={tc1,tc2,...,tcn}出现的频率,记作Text_tc={(tc1,r1)...(tcn,rn)},tci表示词类别,ri表示tci出现的次数,根据性格‑词类别词典,得到博文中词类别对应五种人格的初始得分,对由CTC_dic(tc),得到词类别tc对应的五种人格Q的分数(v1,v2,v3,v4,v5),将词类别集合Text_tc中所有词类别的分数进行加权平均计算,得到词类别集合对应的五种人格Q分数T(Text_tc):其中(tc,r)∈Text_tc(2)利用现有的基于情感词典的情感分析方法,计算博文正负情感值Te,根据性格‑文本情感词典,由CTE_dic(Te),得到当前博文对应的五种人格Q的分数(v1,v2,v3,v4,v5);(3)将博文b的T(Text_tc)和CTE_dic(Te)对应相乘,得到基于博文文本分析的人格分数T(b):T(b)=T(Text_tc)·CTE_dic(Eq)      (4)步骤(3.3)进行配图分析(1)配图数量分析统计博文中出现的配图数量Pq和视频数量Vq,根据性格‑配图数量词典,由CPQ_dic(Pq,Vq),得到此博文对应的五种人格Q的分数(v1,v2,v3,v4,v5);(2)配图结构分析根据性格‑配图结构词典,由CPS_dic(ps),得到此博文配图结构对应的五种人格Q的分数(v1,v2,v3,v4,v5),在最终配图分数计算中,将配图数量和配图结构所占的权重分别设置为θ1和θ2,其中θ12=1,得到博文配图分数P(b):P(b)=θ1·CPQ_dic(Pq,Vq)+θ2·CPS_dic(ps)      (5)步骤(3.4):综合博文的表情、文本和配图三个分数进行最终性格分数的计算在最终性格分数计算中,将文本分数、配图分数和表情分数权重分别设置为α12和α3,α123=1,得到博文性格分数Personality(b):Personality(b)=α1·E(b)+α2·T(b)+α3·P(b)     (6)步骤(3.5)对一个博主u的所有博文blog_assemble={b1,b2,...bn}都进行博文性格分数Personality(b)计算,最后将所有博文性格分数的平均值作为最终的博主性格分析结果Perscore(u):其中bi表示博主u的一篇博文,n表示博文的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910046869.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top