[发明专利]基于卡方词频分析的社交媒体用户兴趣识别方法在审
申请号: | 201910061663.7 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109815415A | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 占梦来;王旭;张棚;罗爽;徐晓龙 | 申请(专利权)人: | 四川易诚智讯科技有限公司;电子科技大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 610041 四川省成都市武侯区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于卡方词频分析的社交媒体用户兴趣点识别方法,包括:S1、构建Word2vec模型;S2、基于Wrod2vec模型对文本进行打分,获取正例训练集、负例训练集;S3、采用卡方检验的原理计算正例训练集、负例训练集中的词汇卡方值,根据卡方值得到特征词汇,从而获取代表文本的特征向量;S4、采用步骤S3得到的代表文本的特征向量对SVM模型进行训练;S5、采用步骤S4训练好的SVM模型进行文本内容的人物兴趣识别;本发明采用了打分的方式来筛选训练文本,采用卡方统计的方法来提取关键词,并结合Word2vec模型向量方法,能显著提高了兴趣识别的准确率。 | ||
搜索关键词: | 兴趣识别 训练集 词频分析 媒体用户 特征向量 文本 模型向量 特征词汇 文本内容 训练文本 词汇卡 兴趣点 准确率 构建 筛选 检验 统计 | ||
【主权项】:
1.基于卡方词频分析的社交媒体用户兴趣点识别方法,其特征在于,包括:S1、构建Word2vec模型;S2、基于Wrod2vec模型对文本进行打分,获取正例训练集、负例训练集;S3、采用卡方检验的原理计算正例训练集、负例训练集中的词汇卡方值,根据卡方值得到特征词汇,从而获取代表文本的特征向量;S4、采用步骤S3得到的代表文本的特征向量对SVM模型进行训练;S5、采用步骤S4训练好的SVM模型进行文本内容的人物兴趣识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川易诚智讯科技有限公司;电子科技大学,未经四川易诚智讯科技有限公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910061663.7/,转载请声明来源钻瓜专利网。