[发明专利]一种结合情感强度的文本TF-IDF特征重构法有效

专利信息
申请号: 201910224082.0 申请日: 2019-03-22
公开(公告)号: CN110096597B 公开(公告)日: 2023-07-04
发明(设计)人: 邓修齐;康琦;张量 申请(专利权)人: 同济大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33;G06F40/284;G06F40/247
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 赵继明
地址: 200092 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种结合情感强度的文本TF‑IDF特征重构法,通过正则匹配方法对表情和用户名进行提取和分割,依据强度词典和否定词、程度副词、重复词的位置关系对词语强度进行修正,通过基于Word2Vec的近义词替换方法对生词进行替换,从而对文本的TF‑IDF特征向量进行重构。与现有技术相比,本发明考虑否定词、程度副词、重复词等情况,对词语的TF‑IDF特征进行修正,保留词语的强度、位置等信息;用训练集中出现过的熟词替换测试集上的生词,增强泛化性能;使用时可直接将原句子作为输入,不需要手动进行分词。
搜索关键词: 一种 结合 情感 强度 文本 tf idf 特征 重构法
【主权项】:
1.一种结合情感强度的文本TF‑IDF特征重构法,其特征在于,包括以下步骤:S1,构建停用词典、程度词典和否定词典,所述的程度词典中的词语为具有情感强度等级的程度副词,所述的否定词典中的词语为否定词;S2,获取待分析的文本,以标点符号为分界点,将文本分割为多个子句;S3,遍历子句中的每个词语并记录它们出现的次数和位置,删去其中的停用词,对程度副词后面的词语进行情感强度修正,对否定词后面的词语进行情感极性的翻转;S4,对每一段待分析的文本新建一个空白字典,用词语作索引,用词语的情感强度、数量作键值,遍历每个词语,如果当前词语是停用词、程度副词或否定词,则跳过该词语不做任何操作;如果现有字典中不包含当前词语,则将该词语存进字典;如果字典中已经存在了当前词语,则更新字典中对应词语的情感强度和数量;S5,提取文本的TF‑IDF特征值,分别将每个词语的TF‑IDF值与字典中相应的情感强度相乘,得到重构后的特征值:TF‑IDFnew,w=TF‑IDFw×degw其中,TF‑IDFnew,w为重构后的词语w的TF‑IDF特征值,TF‑IDFw为词语w的原始TF‑IDF特征值,degw为词语w的情感强度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910224082.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top