[发明专利]互联网短文本主题特征与情感倾向分析方法、系统及介质在审

专利信息
申请号: 202110632146.8 申请日: 2021-06-07
公开(公告)号: CN113535891A 公开(公告)日: 2021-10-22
发明(设计)人: 郭浩哲;蒙圣光;廖玉敏 申请(专利权)人: 广东东华发思特软件有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/35;G06F16/953;G06K9/62
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 张志辉
地址: 519000 广东省珠海市横琴新*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 文本 主题 特征 情感 倾向 分析 方法 系统 介质
【权利要求书】:

1.一种互联网短文本主题特征与情感倾向分析方法,其特征在于,包括以下步骤:

S100、通过python网络爬虫采集互联网OTA资源对象及其评价信息,录入数据库并将不同平台的资源对象归一化;

S200、将OTA评价信息进行分词,并根据分词结果的相似度进行聚类,得到各分类的特征词,并根据各分类的特征词得到主题特征;

S300、提取聚类分析主题特征维度下的分词中的高频词,基于KNN计算高频词的情感倾向及特征倾向,归类出特征词库及情感词库;将所述特征词库记为领域关键词库,以及根据特征相似度筛选出特征领域停用词词库;基于词汇间相似度建立同义词林;

S400、输入一个完整的OTA评价信息,将评价信息拆分为短句,过滤掉不包含领域特征关词的短句,对包含领域关键词的短句进行分词、同义词林处理及停用词处理;

S500、通过词汇相似度和所述情感词库得到情感词向量,并计算得到句子的情感向量,然后通过支持向量机计算情感倾向;

S600、通过词汇相似度和所述特征词库得到分词的特征倾向,并通过统计确定短句的特征主题;

S700、输出该评价信息的特征主题和综合情感倾向。

2.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S100包括:将各个平台的对象根据名称相似度、地址相似度和具体坐标相关联匹配。

3.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S200包括:

将OTA评价信息分别通过jieba分词进行分词,并按句关联保存到关联分词库,并将两两关联的分词作为新词保存入关联分词库;

将分词结果以句子为单位,分词间空格间隔录入word2vec模型训练,得到已训练的词语相似度比较模型;

将分词结果通过word2vec对比相似度,根据词语相似度置入k-means模型进行归类,并从分类结果中提取出该类的特征词,结合行业标准得到最终的主题特征。

4.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S300包括:

提取各主题特征维度下的分词中的高频词,并将情感倾向分为多个级别,然后基于KNN计算高频词的情感/特征倾向,归类出特征词库及情感词库,KNN训练出的各个特征词库作为领域关键词库,并用word2vec模型训练形成分词相似度模型向量,将第一相似跟第二相似的特征相似度差距不超过阈值的词设为特征领域停用词词库;

基于已训练的word2vec计算词汇间的相似度,相似度超过设定阈值的词认为是同义词,建立同义词林。

5.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S500包括:使用word2vec得到分词的最近邻词语的相似度数组,将各最近邻词数组跟多个级别的情感词库比对,若有完全一致或相似度超过设定阈值的词,则认为该分词的情感级别为该情感词库对应的情感级别,并通过最近邻词语得到情感词向量。

6.根据权利要求5所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S500包括:若最近邻词语中有特征关键词或其同义词林的词,所述情感词向量的值翻倍。

7.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述计算得到句子的情感向量包括:将各分词情感向量线性相加得到句子的情感向量。

8.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤S600包括:

将各分词在特征词库的所有词中通过word2vec进行最近邻匹配,设定一个阈值,若超过阈值的词数量不超过K,则忽略该词,最终通过该词属于最近邻词最多的那一类特征;

统计短句中各特征的分词数,数量最多的特征为该短句的特征主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东东华发思特软件有限公司,未经广东东华发思特软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110632146.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top