[发明专利]基于字符级神经网络与SVM的交通事故文本分类方法和系统在审
申请号: | 201910334271.3 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110110085A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 刘彦斌;智伟;温熙华;程元晖;李志伟;陈鹏飞;孙炯炯 | 申请(专利权)人: | 中电海康集团有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 311121 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络模型 文本特征 文本分类 优化 多维矩阵 神经网络 事故原因 测试集 训练集 拆解 字典 交通事故 特征选取 语言限制 构建 映射 语料 申请 测试 分类 | ||
1.一种基于字符级神经网络与SVM的交通事故文本分类方法,其特征在于,所述基于字符级神经网络与SVM的交通事故文本分类方法,包括以下步骤:
获取事故原因语料,划分得到训练集和测试集,并将所述事故原因语料拆解为字符,构建字典;
建立字符级神经网络模型,利用所述训练集优化所述字符级神经网络模型,利用优化后的字符级神经网络模型提取训练集中数据的事故文本特征,并利用提取的事故文本特征训练SVM模型,直至得到优化后的SVM模型;
利用优化后的字符级神经网络模型提取所述测试集中数据的事故文本特征,并将该事故文本特征输入优化后的SVM模型,若判断所述SVM模型输出的分类结果误差小于预设值,则得到最优的SVM模型;否则继续利用训练集优化SVM模型;
将获取的待分类的事故原因拆解为字符,通过所述字典将拆解得到的字符映射为多维矩阵,并将所述多维矩阵输入至优化后的字符级神经网络模型中提取事故文本特征,最优的SVM模型通过该事故文本特征得到事故文本分类结果。
2.如权利要求1所述的基于字符级神经网络与SVM的交通事故文本分类方法,其特征在于,所述的字符级神经网络模型为:从输入层I开始,依次经过卷积层C、池化层M、全连接层F1、全连接层F2、Softmax层;
所述事故文本特征为全连接层F1输出的特征。
3.如权利要求1所述的基于字符级神经网络与SVM的交通事故文本分类方法,其特征在于,所述利用提取的事故文本特征训练SVM模型,直至得到优化后的SVM模型,包括:
将所述事故文本特征通过核函数转换到高维空间进行线性分割,所述核函数采用高斯核:
其中,xi为事故文本特征样本,x为核函数中心,σ函数的宽度参数;
利用转换后的事故文本特征,结合所述训练集中各事故原因的标签,通过网格搜索法得到SVM模型的最优参数,以完成SVM模型的优化;
所述事故原因的标签包括:两机动车、机动车与非机动车、机动车与行人、机动车与固定物、两非机动车、非机动车与行人。
4.如权利要求3所述的基于字符级神经网络与SVM的交通事故文本分类方法,其特征在于,所述若判断所述SVM模型输出的分类结果误差小于预设值,则得到最优的SVM模型;否则继续利用训练集优化SVM模型,包括:
定义混淆矩阵;
根据所述混淆矩阵,以及SVM模型输出的分类结果和测试集中各事故原因及对应标签,计算准确率和召回率;
若准确率>95%且召回率>0.9,则结束训练并输出当前的SVM模型作为最优的SVM模型;否则继续利用训练集优化SVM模型。
5.如权利要求1所述的基于字符级神经网络与SVM的交通事故文本分类方法,其特征在于,所述将获取的待分类的事故原因拆解为字符,通过所述字典将拆解得到的字符映射为多维矩阵,包括:
令待分类的事故原因拆解得到N个字符,所述字典中包含的字符数为M,利用字典中的每个字符映射得到一个M维向量,将待分类的事故原因中的每个字符映射到所述的M维向量中,得到一个N*M维矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334271.3/1.html,转载请声明来源钻瓜专利网。