[发明专利]命名实体识别模型、电话总机转接分机方法及系统在审
申请号: | 202010392261.8 | 申请日: | 2020-05-11 |
公开(公告)号: | CN111680512A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 沈燕;陈屹峰;戴蓓蓉;陆炜;王一腾;孙璐 | 申请(专利权)人: | 上海阿尔卡特网络支援系统有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F40/242;G06N3/04;H04M3/493;H04M3/54;G10L15/26 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 焦天雷 |
地址: | 200120 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 模型 电话 总机 转接 分机 方法 系统 | ||
1.一种命名实体识别模型,其基于注意力机制的双向长短时记忆单元-条件随机场,其特征在于,包括:
嵌入层,其为本模型使用的预训练的词向量,该向量随着模型的迭代不断更新;
双向LSTM层,其适用于进行特征提取,对于每个词获得同时包含前向和后向信息的表示;
自注意层,其适用于捕获句子内部的词依赖关系;
全连接层,其适用于将双向LSTM层和自注意层的输出映射是一个维度为输出标签数量的向量;
CRF层,其具有两种类型的分数,发射分数和转移分数,其适用于学习标签之间的依赖关系;
发射分数为每个词映射到标签的概率值,即全连接层的输出;
转移分数为第一标签转移到第二标签的转移概率。
2.如权利要求1所述的命名实体识别模型,其特征在于:双向LSTM层将每个词获得同时包含前向和后向信息的表示如下:
双向LSTM是两层神经网络,第一层是从右边作为系列的起始输入,表示从句子的最后一个词语作为输入,在每一个时间步i输出为bhi;
第二层从左边作为系列的起始输入,表示从句子的开头开始输入,在每一个时间步i输出为fhi,最终的输出层LSTM的隐藏状态的级联hi为:
hi=[fhi,bhi]。
3.如权利要求2所述的命名实体识别模型,其特征在于:自注意层采用以下方式捕获句子内部的词依赖关系;
在每一个时间步i,计算当前的隐藏层状态hi与所有隐藏层状态h=[h1,h2,...hT]的相似度,T为序列长度,再进行归一化得到相似度分数α,使用α对h进行加权求和得到上下文向量ci;
4.如权利要求3所述的命名实体识别模型,其特征在于:全连接层输出向量是当前时间步i对于所有标签的预测得分;
pi=Wi([hi,ci])+bi;
其中,Wi和bi为模型所需要学习的参数,初始化时服从标准正态分布,pi为全连接层输出的向量,也是预测当前时间步i对于所有标签的预测得分。
5.如权利要求4所述的命名实体识别模型,其特征在于:CRF层能加入约束条件提高预测结果准确率,所述约束条件在训练数据时被CRF层自动学习得到。
6.如权利要求5所述的命名实体识别模型,其特征在于,采用以下步骤进行模型训练;
S1,数据预处理,包括去除指定无用符号、文本分词、去除指定停用词和构造特征词典;
S2,输入数据构造,包括使用生成的特征词典对分词后的文本序列进行转换,将单词序列转化为索引序列,按比例划分训练集和验证集,保存为输入文件;
S3,模型训练,包括设置参数,读取训练集和验证集进行模型训练及验证,并保存模型的训练结果,返回训练和验证结果。
7.一种利用权利要求1所述命名实体识别模型的电话总机转接分机方法,其特征在于,包括以下步骤:
S4,语音信息转文本;
S5,基于命名实体识别模型提取文本中的实体信息;
S6,基于相似度分析检索分机号;
S7,选择相似度最高执行转接。
8.如权利要求7所述的电话总机转接分机方法,其特征在于,采用以下步骤对完成训练命名实体识别模型提取实体信息;
S5.1,加载训练生成的模型文件;
S5.2,将客户的文本信息进行数据处理,生成单词索引序列;
S5.3,生成的单词索引序列输入到训练好的命名实体识别模型中,返回提取到的实体信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海阿尔卡特网络支援系统有限公司,未经上海阿尔卡特网络支援系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010392261.8/1.html,转载请声明来源钻瓜专利网。