[发明专利]一种利用新闻评论行为的网络用户人格自动识别方法在审
申请号: | 201910435231.8 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110222262A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 刘春阳;王鹏;张旭;张翔宇;陈志鹏;李磊;王利军 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/00;G06K9/62;G06N20/00 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络用户 自动识别 新闻评论 预测模型 自变量 大规模用户 机器学习 模型实现 人格特征 新闻内容 新闻文本 新闻语料 中文分词 归一化 时效性 停用词 语料库 词条 筛选 场景 监测 评论 生态 | ||
1.一种利用新闻评论行为的网络用户人格自动识别方法,其特征在于:该方法步骤如下:
步骤一、利用新闻语料资源,对每个新闻文本内容进行中文分词;筛选掉停用词后得到该语料库的所有不同的词条,作为新闻内容词典;
步骤二、利用机器学习方法,建立新闻评论行为到人格的预测模型;
步骤三、在得到预测模型之后,针对新的网络用户,获得该新的网络用户参与评论的所有新闻,采用获得归一化之后的自变量,利用训练得到的模型实现对网络用户人格的自动识别。
2.根据权利要求1所述的一种利用新闻评论行为的网络用户人格自动识别方法,其特征在于:所述步骤二具体包括如下步骤:
首先,在新闻网站上招募被试者,利用成熟的大五人格测量问卷测量他们人格特征,同时在新闻网站上采集这些被试者参与评论的新闻;
其次,利用步骤一建立的新闻内容词典,统计词典中每个词条在所有参与评论的新闻内容中的出现频次;得到新闻内容词典中所有词条形成的多维向量,每个向量值是对应的词条在所有该被试者参与评论的新闻中的总频次;
最后,对该多维向量进行归一化处理;将归一化之后的向量作为自变量,该被试者对应的每个维度人格得分做为因变量,调用机器学习算法,分别训练得到对应大五人格5个维度的5个预测模型,该组5个模型可基于对用户新闻评论文本数据的分析分别计算得出大五人格5个维度的得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司,未经国家计算机网络与信息安全管理中心;北京天润基业科技发展股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910435231.8/1.html,转载请声明来源钻瓜专利网。