[发明专利]一种快速训练泰文情感分析模型的方法在审
申请号: | 201810841591.3 | 申请日: | 2018-07-27 |
公开(公告)号: | CN109063096A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 吴杨 | 申请(专利权)人: | 成都睿码科技有限责任公司;杭州数峰科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 成都君合集专利代理事务所(普通合伙) 51228 | 代理人: | 张鸣洁 |
地址: | 610041 四川省成都市自由贸易*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种快速训练泰文情感分析模型的方法,本发明通过将评论分为两类减少了人工标注样本的工作量,缩短了开发周期,降低了开发成本;本发明利用海量数据对不熟悉的泰文进行快速建立泰文情感分析能力,本发明可以对泰文电商网站的评论进行快速情感分类,从而高效率从大量评论数据中直接分析出各评论所针对的产品的特征,以及用户对该产品的情感倾向,具有较好的实用性。 | ||
搜索关键词: | 泰文 情感分析 快速训练 评论 海量数据 开发周期 快速建立 评论数据 情感分类 情感倾向 人工标注 直接分析 高效率 网站 工作量 样本 开发 | ||
【主权项】:
1.一种快速训练泰文情感分析模型的方法,其特征在于,主要包括以下步骤:步骤S101:使用爬虫工具抓取泰文电商网站的评论,并将评论分为两类,其中好评的数据为一类,中评和差评的数据为一类;步骤S102:采用泰文分词工具对泰文进行分词,所述泰文分词工具使用开源项目PyThaiNLP,然后使用N‑gram计算词向量,使用N‑gram规则将分词后的语料转换为词向量;步骤S103:用卷积神经网络建模,并将词向量作为输入,经训练输出卷积结果;将卷积结果进行最大池化;经过多次卷积‑池化循环,最后使用逻辑回归函数将池化结果分类,得到正向值和负向值,模型训练完成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都睿码科技有限责任公司;杭州数峰科技有限公司,未经成都睿码科技有限责任公司;杭州数峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810841591.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种面向聚类集成的权重计算方法
- 下一篇:基于区块链的数据对比及共识方法