[发明专利]一种通过文本主题挖掘推测用户大五人格的方法及系统在审
申请号: | 201611076366.2 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106649267A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 胡铮;刘奕杉;张春红;唐晓晟 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 汤财宝 |
地址: | 100876*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 文本 主题 挖掘 推测 用户 人格 方法 系统 | ||
技术领域
本发明涉及人格预测领域,更具体地,涉及一种通过文本主题挖掘推测用户大五人格的方法和系统。
背景技术
目前,随着互联网的发展和社交媒体的普及,人们的生活方式及社交方式产生了极大的变革,人们在社交网站上浏览网页、发照片、写日志、更新状态,留下了越来越多的行为信息。而用户的行为信息可以反映他的喜好、性格,成为了各企业、电商为用户提供个性化服务的重要依据。其中,用户在社交媒体留下的文本信息就是一项重要的数据信息。如今,社交媒体用户文本信息的分析与研究在各个领域都得到了广泛关注,我们可以借助用户在社交媒体平台上发表的状态、日志等文本信息,挖掘用户的情绪、心理、及偏好等。此类技术的优势在于,以往利用调查问卷的形式采集用户信息不仅耗费成本,而且不具备足够的可信度;而用户在社交网络上自发撰写的文本信息既易于搜集,数据量巨大,也真实反映了用户的心情、状态及性格。因此网络社交媒体的文本信息为分析用户行为性格提供了极大的便利,无论在研究方面还是应用方面都有非常重要的意义。但该技术思路也面临着种种挑战,网络社交媒体是一个自由、开放的环境,用户也更趋向于更方便、简洁的表达方式,因此社交媒体文本口语化、非正规特色鲜明,且以短文本居多。这些因素为传统的文本分析带来了极大的挑战。
目前已有一些研究通过社交媒体的文本信息分析用户人格,这些研究大多借助传统词频分析法,LIWC,矩阵分解,主题模型等技术手段,从词项、隐向量等角度对文本进行分析建模。但现有研究大多存在以下局限:(1)主题模型是建立在词语固定的封闭词表基础上,不适用于环境开放、拥有多样语言形式的社交媒体平台;(2)即便少数模型是基于开放性词表的,在用n维向量对文本特征进行描述时,忽略了各个特征之间的语义关系;(3)现有研究利用的少量的经验样本数据进行实验,缺乏一定的可靠性。除以上,现有研究给出的大多是定性分析结果,即只对文本信息与用户行为的关联性存在与否做出回答,局限于“是”与“否”的问题,而没有给出“是多少”的结论。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种通过文本主题挖掘推测用户大五人格的方法和系统。
根据本发明的一个方面,提供一种通过文本主题挖掘推测用户大五人格的方法,包括:
S1,采集文本数据及大五人格评分,进行预处理;
S2,基于人格-主题模型,根据预处理后的文本获得人格-主题分布矩阵;
S3,根据人格-主题分布矩阵分析人格与主题关系获得不同主题关联的大五人格得分。
进一步,S1进一步包括:
S1.1,将不同用户的文本按不同的人格分类,获得与不同人格对应的汇总文本;
S1.2,对每个汇总文本进行过滤噪声、分词处理及去停止词。
进一步,S2进一步包括:
S2.1,建立人格-主题模型,并设置人格-主题模型中的参数;
S2.2,利用吉布斯算法,按人格-主题模型推导预处理后的文本,获得人格-主题分布矩阵。
进一步,S3进一步包括:
S3.1,对人格-主题分布矩阵进行纵向归一化处理,获得主题-人格分布矩阵;
S3.2,计算主题区分度;
S3.3,根据每个主题的人格概率分布及区分度,计算每个主题的大五人格得分。
进一步,S2.1进一步包括:
S2.1.1,根据先验参数,对每一种人格,采样主题分布;对每一个主题,采样主题词分布,并采样背景词概率分布和背景词-主题词判断的概率分布;
S2.1.2,对每一种人格,依据对应的主题分布,采样每条文本中主题;
S2.1.3,对每一条文本,依次对每个单词进行采样;
S2.1.4,基于上述文本生成过程,建立人格-主题模型;
S2.1.5,设置先验参数及主题数目。
进一步,S2.2进一步包括:
S2.2.1,随机初始化每条文本的主题编号,随机初始化每个单词属于背景词或主题词;
S2.2.2,利用吉布斯算法对主题和背景词-主题词判断进行循环采样,经过预定次数的迭代,概率分布趋近于稳定,获得人格-主题分布矩阵。
进一步,S3.2进一步包括,所述区分度的计算公式如下:
其中,对每一个主题的不同人格概率值进行排序,XH表示排序后较大的一半的人格概率值,XL表示排序后较小的一半的人格概率值,W表示概率值的上界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611076366.2/2.html,转载请声明来源钻瓜专利网。