[发明专利]一种结合情感强度的文本TF-IDF特征重构法有效
申请号: | 201910224082.0 | 申请日: | 2019-03-22 |
公开(公告)号: | CN110096597B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 邓修齐;康琦;张量 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06F40/284;G06F40/247 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种结合情感强度的文本TF‑IDF特征重构法,通过正则匹配方法对表情和用户名进行提取和分割,依据强度词典和否定词、程度副词、重复词的位置关系对词语强度进行修正,通过基于Word2Vec的近义词替换方法对生词进行替换,从而对文本的TF‑IDF特征向量进行重构。与现有技术相比,本发明考虑否定词、程度副词、重复词等情况,对词语的TF‑IDF特征进行修正,保留词语的强度、位置等信息;用训练集中出现过的熟词替换测试集上的生词,增强泛化性能;使用时可直接将原句子作为输入,不需要手动进行分词。 | ||
搜索关键词: | 一种 结合 情感 强度 文本 tf idf 特征 重构法 | ||
【主权项】:
1.一种结合情感强度的文本TF‑IDF特征重构法,其特征在于,包括以下步骤:S1,构建停用词典、程度词典和否定词典,所述的程度词典中的词语为具有情感强度等级的程度副词,所述的否定词典中的词语为否定词;S2,获取待分析的文本,以标点符号为分界点,将文本分割为多个子句;S3,遍历子句中的每个词语并记录它们出现的次数和位置,删去其中的停用词,对程度副词后面的词语进行情感强度修正,对否定词后面的词语进行情感极性的翻转;S4,对每一段待分析的文本新建一个空白字典,用词语作索引,用词语的情感强度、数量作键值,遍历每个词语,如果当前词语是停用词、程度副词或否定词,则跳过该词语不做任何操作;如果现有字典中不包含当前词语,则将该词语存进字典;如果字典中已经存在了当前词语,则更新字典中对应词语的情感强度和数量;S5,提取文本的TF‑IDF特征值,分别将每个词语的TF‑IDF值与字典中相应的情感强度相乘,得到重构后的特征值:TF‑IDFnew,w=TF‑IDFw×degw其中,TF‑IDFnew,w为重构后的词语w的TF‑IDF特征值,TF‑IDFw为词语w的原始TF‑IDF特征值,degw为词语w的情感强度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910224082.0/,转载请声明来源钻瓜专利网。