[发明专利]电影评论观点情感倾向性分析方法有效
申请号: | 201911082409.1 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110825876B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 许青青;谢赟;韩欣 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 杨希 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电影 评论 观点 情感 倾向性 分析 方法 | ||
1.一种电影评论观点情感倾向性分析方法,其特征在于,包括:
步骤S1,从影评网站爬取各类别的多部电影的影片描述信息和评论信息;
步骤S2,对采集的影评描述信息和评论信息进行数据预处理;
步骤S3,制定多条评论观点提取规则,利用评论观点提取规则从评论信息的评论内容的各个评论语句中获得观点词与情感词,然后将所有观点词和情感词分别保存为评论标签词库与观点情感词库;
步骤S4,通过关键词匹配打标或人工打标,对各个评论语句进行评论标签类别标记和情感倾向性标记;
步骤S5,生成由评论标签分类模型和标签情感分类模型组成的评论观点情感分析模型;
步骤S6,针对目标影评,利用评论观点情感分析模型自动生成评论标签类别标记和情感倾向性标记;
所述的数据预处理包括:
将采集的所有评论信息整合形成一个评论语料库;
去除评论语料库中重复的数据;
删除评论语料库中评论内容缺失的数据;
将评论语料库中繁体中文全部转化为简体中文;
从采集的各影片描述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记;
所述步骤S4包括:
获取标签类别词典和情感词典;
对于所述步骤S3中能提取出观点词和情感词的评论语句进行关键词匹配打标:将获取的观点词与标签类别词典进行匹配,将获取的情感词与情感词典进行匹配,若两者均能匹配成功,给该评论语句打上标签类别标记以及情感倾向性标记;否则,进行人工标签类别标记与情感倾向性标记;
对于所述步骤S3中未提取出观点词和情感词的评论语句,进行人工标签类别标记与情感倾向性标记;
所述步骤S5包括:
利用关键词匹配打标的数据集以及人工打标的数据集,分别训练生成两个初步的评论标签分类模型以及两个初步的标签情感分类模型;
将两个初步的评论标签分类模型加权融合生成最终的评论标签分类模型;
将两个初步的标签情感分类模型加权融合生成最终的标签情感分类模型。
2.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S1中,电影的分类包括:爱情、动画、动作、科幻、恐怖、喜剧和悬疑;
所述影片描述信息包括影片名、导演名、主演名、类型和总评分;
所述评论信息包括:评论者昵称、评论有用数、评论时间、评论内容和评分。
3.根据权利要求1所述的电影评论观点情感倾向性分析方法,其特征在于,所述步骤S3包括:
根据依存句法结构、词语间的词性和评论观点中观点词与情感词的表达结构来构建多条评论观点提取规则;
对评论语料库中评论内容进行分句、分词、词性标注和依存句法分析,获得各个评论语句,查看评论语句是否匹配某条评论观点抽取规则,匹配则获取观点词和情感词,
将获取的所有观点词和情感词分别保存为评论标签词库与观点情感词库。
4.根据权利要求3所述的电影评论观点情感倾向性分析方法,其特征在于,所述的依存句法结构包括:主谓结构、动宾结构、定中结构、状中结构、动补结构和并列结构;
所述的词语间的词性包括:主语成分、宾语或形似宾语成分、定语成分以及名词成分;形似宾语指间接或类似宾语的结构;
所述的观点词与情感词的表达结构,指:主语成分为观点词,宾语或形似宾语成分为情感词;定语成分为情感词,被其修饰的名词成分为观点词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082409.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种神经外科护理装置
- 下一篇:一种基于云控制的空气净化器及其控制方法