[发明专利]基于字符级神经网络与SVM的交通事故文本分类方法和系统在审
申请号: | 201910334271.3 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110110085A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 刘彦斌;智伟;温熙华;程元晖;李志伟;陈鹏飞;孙炯炯 | 申请(专利权)人: | 中电海康集团有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 311121 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络模型 文本特征 文本分类 优化 多维矩阵 神经网络 事故原因 测试集 训练集 拆解 字典 交通事故 特征选取 语言限制 构建 映射 语料 申请 测试 分类 | ||
本申请公开了一种基于字符级神经网络与SVM的交通事故文本分类方法和系统,方法包括获取事故原因语料,得到训练集和测试集,并构建字典;建立字符级神经网络模型,利用训练集得到优化后的字符级神经网络模型,并提取训练集中的事故文本特征,并利用提取的事故文本特征得到优化后的SVM模型;利用测试集测试优化后的字符级神经网络模型和优化后的SVM模型;将获取的待分类的事故原因拆解为字符,通过字典将拆解得到的字符映射为多维矩阵,并将多维矩阵输入至优化后的字符级神经网络模型中提取事故文本特征,最优的SVM模型通过该事故文本特征得到事故文本分类结果。本申请不受语言限制,且可避免预训练的开销,同时避免了SVM模型在特征选取上的盲目性。
技术领域
本申请属于智能交通管理领域,具体涉及一种基于字符级神经网络与SVM的交通事故文本分类方法和系统。
背景技术
近年来,为妥善处理交通事故,公平公正的认定事故责任人,每年都要花费大量人力、财力用于道路交通事故的处理。因此,急需一种自动化的交通事故文本分类方法,实现对交通事故数据的分析,从而辅助交通部门发现事故黑点,以便进一步的治理。
对事故进行分类的问题,可归属为文本分类的范畴。人工神经网络(ArtificialNeural Networks)是一种按照人脑的组织和活动原理而构造的一种数据驱动型非线性模型。它由神经元结构模型、网络连接模型、网络学习算法等几个要素组成,是具有某些智能功能的系统。在文本分类中,神经网络是一组连接的输入输出神经元,输入神经元代表词条,输出神经元表示文本的类别,神经元之间的连接都有相应的权值。训练阶段,通过某种算法,如正向传播算法和反向修正算法,调整权值,使得测试文本能够根据调整后的权值正确地学习。从而得到多个不同的神经网络模型,然后令一篇未知类别的文本依次经过这些神经网络模型,得到不同的输出值,通过比较这些输出值,最终确定文本的类别。
SVM(Support Vector Machine)指的是支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。
在此之前很多基于人工神经网络的模型都是使用更高层面的单元对文本或者语言进行建模,比如单词(统计信息或者n-grams、word2vec等),短语(phrases),句子(sentence)层面,或者对语义和语法结构进行分析。例如专利申请号为CN201710573388.8,专利名称为基于超深卷积神经网络结构模型的中文文本分类方法的文献,公开了一种基于单词的分类算法。然而,需要预先采集大量语料来构建词向量模型,分词的质量直接影响后续分类准确度,且只能处理中文。
又如专利申请号为CN201810353803.3,专利名称为基于数据融合和支持向量机的高速路交通事故严重度预测方法的文献,该文献收集交通事故发生时的道路条件、驾驶员情况、车辆情况等变量因素,建立SVM模型来预测高速公路事故的严重度。但是关于影响事故严重度特征的选取,过于主观,且其所列出的“道路条件”、“驾驶员情况”等因素也未必能完全表征事故特征。
由此可见,当前交通事故文本分类主要存在以下问题急需解决:
1)传统的交通事故文本分类往往需要人工标定,浪费大量人力、财力,且人工操作难免疏漏,同时也难以满足时效性的要求。
2)现有的卷积神经网络都是基于高层级的单元进行建模(单词、短语或句子),一方面增加了训练复杂度,另一方面也限制了模型的普适性。另外,传统的softmax分类器在准确度上也有待提高。
3)现有的支持向量机模型在特征的提取上缺乏客观依据,往往仅凭人工经验,制约了模型准确性的提升。
发明内容
本申请的目的在于提供一种基于字符级神经网络与SVM的交通事故文本分类方法和系统,可避免预训练的开销,且不受语言限制,同时避免了SVM模型在特征选取上的盲目性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334271.3/2.html,转载请声明来源钻瓜专利网。