[发明专利]一种基于神经网络的命名实体识别方法和车机有效
申请号: | 202010043418.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111274816B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李林峰;黄海荣;冯俊旗 | 申请(专利权)人: | 湖北亿咖通科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 张凯 |
地址: | 430056 湖北省武汉市经济开发区神*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 命名 实体 识别 方法 | ||
本发明提供了一种基于神经网络的命名实体识别方法、计算机可读存储介质、电子设备和车机。该方法在得到待识别字符串中每一字符对应的索引值后,根据该索引值、以及预先部署的编码后字符向量表和字符向量压缩编码表,反向查找得到待识别字符串的原始字符向量矩阵,进而根据待识别字符串的原始字符向量矩阵,通过神经网络进行推理,识别出待识别字符串中的命名实体和命名实体对应的标签。由于只需要在神经网络内预先部署编码后字符向量表和字符向量压缩编码表,而无需保存字符的原始字符向量,且压缩编码后的字符向量值的编码位数小于原始字符向量值的编码位数,节省存储空间,减少芯片的内存空间尺寸。
技术领域
本发明涉及人工智能算法技术领域,特别是一种基于神经网络的命名实体识别方法、计算机可读存储介质、电子设备以及车机。
背景技术
在汽车车机NLP(Natural Language Processing,自然语言处理)领域,命名实体识别(Named Entity Recognition,NER)是一项很基础的任务。NER的神经网络模型通常采用LSTM(Long Short-Term Memory,长短记忆网络)加CRF(Conditional Random Field,条件随机场)的结构,主要包括输入层、字嵌入层、LSTM层、全连接层、维特比解码层和输出层,其中在字嵌入层中会将输入的字符串中的每个字/词表示成一个多维数组。
在现有技术中,常采用one-hot(独热编码)来对字/词进行数字化表示来得到该多维数组,但这种方式存在编码所需位数非常庞大,进而导致存储空间占用过大的问题。例如,假设存在10000个常用汉字,则采用one-hot来表示时,每个字需要10000维(即,10000个位)来表示,位数非常庞大。
为了解决此问题,出现了采用字/词向量来表示的方法。通过使用向量,每个字仅需要几百位就可以表达one-hot编码下需要10000位才能表达的内容,显著降低了存储空间占用。但是,由于在字/词向量中采用的是浮点数据(如32位单精度浮点数),其占用的存储空间仍然是比较大的。即使将32位浮点数量化为整型(如16位整型),所有汉字所占用的存储空间仍然无法有效缩减以满足芯片内存尺寸小型化的需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于神经网络的命名实体识别方法、计算机可读存储介质、电子设备以及车机。
本发明的一个目的在于提供一种能够节省存储空间从而减少芯片的内存空间尺寸的基于神经网络的命名实体识别方法。
本发明的一个进一步的目的在于通过采用恰当的压缩编码方式提高字符向量的存储效率。
根据本发明实施例的一方面,提供了一种基于神经网络的命名实体识别方法,其特征在于,包括:
接收输入的待识别字符串,并根据预置的字符与索引值的对应关系,得到所述待识别字符串中每一字符对应的索引值;
根据所述待识别字符串中每一字符对应的索引值,在预先部署的编码后字符向量表中查找与所述待识别字符串中每一字符对应的索引值相对应的压缩编码后的字符向量,得到所述待识别字符串的压缩编码后向量矩阵,其中,所述压缩编码后的字符向量为由压缩编码后的字符向量值组成的预设维数的数组;
根据预先部署的字符向量压缩编码表中压缩编码后的字符向量值与原始字符向量值的映射关系,将所得到的所述待识别字符串的压缩编码后向量矩阵中的每一个压缩编码后的字符向量值用所述字符向量压缩编码表中的原始字符向量值代替,得到所述待识别字符串的原始字符向量矩阵,其中,所述压缩编码后的字符向量值的编码位数小于所述原始字符向量值的编码位数;
根据所述待识别字符串的原始字符向量矩阵,通过所述神经网络进行推理,识别出所述待识别字符串中的命名实体和所述命名实体对应的标签。
可选地,所述编码后字符向量表和所述字符向量压缩编码表通过以下方式得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北亿咖通科技有限公司,未经湖北亿咖通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043418.6/2.html,转载请声明来源钻瓜专利网。