[发明专利]一种通过文本主题挖掘推测用户大五人格的方法及系统在审

申请号：	201611076366.2	申请日：	2016-11-30
公开（公告）号：	CN106649267A	公开（公告）日：	2017-05-10
发明（设计）人：	胡铮;刘奕杉;张春红;唐晓晟	申请（专利权）人：	北京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京路浩知识产权代理有限公司11002	代理人：	汤财宝
地址：	100876***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通过文本主题挖掘推测用户人格方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人格预测领域，更具体地，涉及一种通过文本主题挖掘推测用户大五人格的方法和系统。

背景技术

目前，随着互联网的发展和社交媒体的普及，人们的生活方式及社交方式产生了极大的变革，人们在社交网站上浏览网页、发照片、写日志、更新状态，留下了越来越多的行为信息。而用户的行为信息可以反映他的喜好、性格，成为了各企业、电商为用户提供个性化服务的重要依据。其中，用户在社交媒体留下的文本信息就是一项重要的数据信息。如今，社交媒体用户文本信息的分析与研究在各个领域都得到了广泛关注，我们可以借助用户在社交媒体平台上发表的状态、日志等文本信息，挖掘用户的情绪、心理、及偏好等。此类技术的优势在于，以往利用调查问卷的形式采集用户信息不仅耗费成本，而且不具备足够的可信度；而用户在社交网络上自发撰写的文本信息既易于搜集，数据量巨大，也真实反映了用户的心情、状态及性格。因此网络社交媒体的文本信息为分析用户行为性格提供了极大的便利，无论在研究方面还是应用方面都有非常重要的意义。但该技术思路也面临着种种挑战，网络社交媒体是一个自由、开放的环境，用户也更趋向于更方便、简洁的表达方式，因此社交媒体文本口语化、非正规特色鲜明，且以短文本居多。这些因素为传统的文本分析带来了极大的挑战。

目前已有一些研究通过社交媒体的文本信息分析用户人格，这些研究大多借助传统词频分析法，LIWC，矩阵分解，主题模型等技术手段，从词项、隐向量等角度对文本进行分析建模。但现有研究大多存在以下局限：(1)主题模型是建立在词语固定的封闭词表基础上，不适用于环境开放、拥有多样语言形式的社交媒体平台；(2)即便少数模型是基于开放性词表的，在用n维向量对文本特征进行描述时，忽略了各个特征之间的语义关系；(3)现有研究利用的少量的经验样本数据进行实验，缺乏一定的可靠性。除以上，现有研究给出的大多是定性分析结果，即只对文本信息与用户行为的关联性存在与否做出回答，局限于“是”与“否”的问题，而没有给出“是多少”的结论。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种通过文本主题挖掘推测用户大五人格的方法和系统。

根据本发明的一个方面，提供一种通过文本主题挖掘推测用户大五人格的方法，包括：

S1，采集文本数据及大五人格评分，进行预处理；

S2，基于人格-主题模型，根据预处理后的文本获得人格-主题分布矩阵；

S3，根据人格-主题分布矩阵分析人格与主题关系获得不同主题关联的大五人格得分。

进一步，S1进一步包括：

S1.1，将不同用户的文本按不同的人格分类，获得与不同人格对应的汇总文本；

S1.2，对每个汇总文本进行过滤噪声、分词处理及去停止词。

进一步，S2进一步包括：

S2.1，建立人格-主题模型，并设置人格-主题模型中的参数；

S2.2，利用吉布斯算法，按人格-主题模型推导预处理后的文本，获得人格-主题分布矩阵。