[发明专利]一种基于知识驱动的非合作式人格预测方法及系统在审
申请号: | 202210587837.5 | 申请日: | 2022-05-27 |
公开(公告)号: | CN115292456A | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 李弼程;康智勇;黄涛;皮慧娟;王华珍;王成 | 申请(专利权)人: | 华侨大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/242;G06F40/247;G06K9/62 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 李艾华 |
地址: | 362000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 驱动 合作 人格 预测 方法 系统 | ||
1.一种基于知识驱动的非合作式人格预测方法,其特征在于,包括:
步骤1,将获得的人格相关词汇作为种子词并进行分类,构建种子词典;如果人格相关词汇为英文,则翻译成中文后再分类;
步骤2,选择各类不同类别领域的社交媒体用户,获取其发布的原创文本数据并进行预处理,构建语料库,并使用语料库训练词向量模型;
步骤3,利用训练好的词向量模型计算种子词与语料库中的候选词之间的余弦相似度,选择相似度大的候选词对种子词典进行扩展,构建基础词典;
步骤4,对基础词典进行同义词补充,构建人格词典;
步骤5,利用人格词典提出基于词汇权重和词频的人格评分算法,并根据人格评分算法获取待测用户的人格特质。
2.根据权利要求1所述的基于知识驱动的非合作式人格预测方法,其特征在于,所述步骤1中,获得的人格相关词汇来自国内外在大五人格研究中总结得到的人格相关词汇。
3.根据权利要求2所述的基于知识驱动的非合作式人格预测方法,其特征在于,所述步骤2,具体包括:
步骤2.1,针对社交媒体的预设各类别,每个类别分别选取发言超过预设条的预设位社交媒体用户,获取预设年内发表的文本数据;
步骤2.2,对获取的文本数据进行预处理:删除图片和表情;删除已发布的广告;去掉标点符号并使用Jieba软件进行分词,预处理完成后形成语料库;
步骤2.3,利用Word2Vec方法对预处理完成的语料库训练词向量模型,获得每个词语的词向量表示。
4.根据权利要求1所述的基于知识驱动的非合作式人格预测方法,其特征在于,所述步骤3,具体包括:
步骤3.1,利用训练好的词向量模型,将种子词典中的词汇导入进行余弦相似度计算,选择出扩展词,扩展词的定义为:
W=(Simseed,kw)
式中,Simseed为种子词Seed与扩展词在向量空间中的词向量余弦相似度,kw是扩展词的词语词频,基础词典构建遵守的原则如下:
(1)设置词语相似度Simseed阈值,当Simseed0.75的词语才进行收录;
(2)设置词语词频阈值,将词频kw100的词语舍去;
(3)若多个种子词同时与一个扩展词拥有高相似度,则仅保留一个扩展词,并对其他种子词进行标记,记录其相似度;
步骤3.2,根据上述词典构建规则进行得到结合语料库的基础词典。
5.根据权利要求1所述的基于知识驱动的非合作式人格预测方法,其特征在于,所述步骤4,具体包括:
从同义词词林中,查找基础词典词汇的多个同义词并扩充到基础词典,构建人格词典,同义词的规则如下:
(1)基础词典词汇的同义词若有多个,则全部进行收录;
(2)若基础词典词汇没有同义词,则跳过;
(3)若基础词典词汇的同义词出现重复,则仅保留一个同义词,在重复的其他基础词典词汇中进行标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华侨大学,未经华侨大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210587837.5/1.html,转载请声明来源钻瓜专利网。