[发明专利]一种利用新闻评论行为的网络用户人格自动识别方法在审
申请号: | 201910435231.8 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110222262A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 刘春阳;王鹏;张旭;张翔宇;陈志鹏;李磊;王利军 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/00;G06K9/62;G06N20/00 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络用户 自动识别 新闻评论 预测模型 自变量 大规模用户 机器学习 模型实现 人格特征 新闻内容 新闻文本 新闻语料 中文分词 归一化 时效性 停用词 语料库 词条 筛选 场景 监测 评论 生态 | ||
本发明公开一种利用新闻评论行为的网络用户人格自动识别方法:步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。本发明对人格的自动识别,无需用户自我报告,时效性高;对用户没有任何干扰,生态效度高;可以做到大规模用户人格的自动识别;人格识别效率提高;满足在新闻网站场景下对人员人格特征的监测要求。
技术领域
本发明涉及一种利用新闻评论行为的网络用户人格自动识别方法,尤其是一种利用网络用户在新闻网站上的新闻评论行为,通过训练及其学习方法建立网络用户的人格预测模型,实现对网络用户人格特征的自动识别的方法;属于计算网络心理学技术领域。
背景技术
“人格”(personality)是心理科学领域中的重要研究课题。作为一种特质型心理变量,人格涵盖了个体稳定的行为模式与内部心理过程,能够科学地解释存在于人际之间的稳定的个性化差异,并且能够与“个体”、“人际”、“社会”等多个层面上的变量保持着稳定的预测关系,是心理学一个基础的研究范畴。近年来,研究者们在人格描述模式上形成了比较一致的共识,提出了人格的大五模式,发现大约有五种特质可以涵盖人格描述的所有方面,包括开放性、尽责性、外倾性、宜人性和神经质。
传统的人格测量方式主要通过自陈量表的方式,指按照需要测量的人格特征编写与之相对应的客观问题,然后要求被试根据自己的实际情况或感受填写量表,从而最终对用户的人格进行测定的一种测量方法。这在某些情况下是可行的,但是一则用户有的时候很难准确报告自己当前的状态,另外,在某些场景,如网络环境下很难要求用户自我报告。此外,难以进行实时的大规模的用户测量。
综上,现有技术存在时效性差,难以大规模获取的缺陷,尤其针对网络用户。
发明内容
本发明的目的在于提供一种利用新闻评论行为的网络用户人格自动识别方法,以解决现有技术中人格测量时效性差,难以大规模获取的缺陷。
本发明一种利用新闻评论行为的网络用户人格自动识别方法,所采取的技术方案为:
步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词。筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典。
步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型。
首先在新闻网站上招募一些被试者,利用成熟的大五人格测量问卷测量他们人格特征,同时在新闻网站上采集这些被试者参与评论的新闻。
其次,利用步骤一建立的新闻内容词典,统计词典中每个词条在所有参与评论的新闻内容中的出现频次;这样处理后,可以得到新闻内容词典中所有词条形成的多维向量,每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次。
最后,对该多维向量进行归一化处理;将归一化之后的向量作为自变量,该被试者对应的每个维度人格得分做为因变量,调用机器学习算法,分别训练得到对应大五人格5个维度的5个预测模型,该组5个模型可基于对用户新闻评论文本数据的分析分别计算得出大五人格5个维度的得分。
步骤三、在得到预测模型之后,针对新的网络用户,我们获得该新的网络用户参与评论的所有新闻,采用上面步骤描述的过程获得归一化之后的自变量,就可以利用训练得到的模型实现对网络用户人格的自动识别。
本发明一种利用新闻评论行为的网络用户人格自动识别方法,与现有技术方案相比,具有下述明显优点:
1、对人格的自动识别,无需用户自我报告,时效性高;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司,未经国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435231.8/2.html,转载请声明来源钻瓜专利网。