[发明专利]英文文本序列标注方法、系统及计算机设备有效
申请号: | 201910871720.8 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110750965B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 孙超;于凤英;王健宗;韩茂琨 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/117;G06N3/0442;G06N3/08 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 王勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 文本 序列 标注 方法 系统 计算机 设备 | ||
1.一种基于神经网络的英文文本序列标注方法,其特征在于,所述方法包括:
提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
通过字符嵌入层获取目标句子的字符矩阵I(k×m)×1,通过第二词嵌入层将字符矩阵I(k×m)×1转化为k×m×d维的矩阵,并将k×m×d维的矩阵输入到第二BI-LSTM层中,通过所述第二BI-LSTM层得到第四矩阵并将第四矩阵输入到第二dropout层以得到第二输出矩阵
提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四BI-LSTM层和第四dropout层以得到第四输出矩阵
将第一输出矩阵第二输出矩阵第三输出矩阵和第四输出矩阵进行线性相加,得到线性相加结果ωi为对应的权重系数;
将线性相加结果O输入第二LSTM层在每个时间步记录输出以得到第五输出矩阵i为各个单词在目标句子中序号,z为输入第二LSTM层的输入维度;
将第五输出矩阵作为条件随机场CRF的输入序列,以通过CRF输出标签序列Y=(y1,y2,...,ym);
其中,提取目标句子的单词信息、字符信息和形态特征,并根据所述单词信息、字符信息和形态特征输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵包括:
通过第一词嵌入层获取目标句子的第一矩阵Wm×d,m为所述目标句子中的单词数量,d为所述目标句子中的每个单词的词向量维数;
通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,n为每个单词中字符的字符向量维数;
获取目标句子中各个单词的形态特征,为每个单词建立一个独热向量SUV1×10,以得到所述目标句子的第三矩阵SUVm×10;
拼接第一矩阵Wm×d、第二矩阵Cm×n和第三矩阵SUVm×10,将拼接后的拼接向量矩阵[Wm×d,Cm×n,SUVm×10]输入到第一BI-LSTM层和第一dropout层以得到第一输出矩阵
其中,通过字符嵌入层和第一LSTM层获取目标句子的第二矩阵Cm×n,包括:
将目标句子中的每个单词分割为k维列向量Ck×1,并将Ck×1输入到随机初始化得到的字符嵌入层中,通过所述字符嵌入层输出k×n的矩阵,其中,k为单词的长度;
将k×n的矩阵输入到第一LSTM层中,将所述第一LSTM层中的最后隐状态C1×n作为对应单词的向量表示,以将包含m个单词的目标句子转换为第二矩阵Cm×n;
其中,提取目标句子的语义信息和基于卷积层提取的二元信息,并将所述语义信息输入到第三BI-LSTM层和第三dropout层以得到第三输出矩阵以及将二元信息输入到第四BI-LSTM层和第四dropout层以得到第四输出矩阵包括:
通过语义嵌入层获取目标句子的各个单词进行标注,将标注后的各个单词输入到第三BI-LSTM层中以得到第五矩阵Sm×d,并将第五矩阵Sm×d输入到第三dropout层以得到第三输出矩阵
通过第三词嵌入层和卷积层获取目标句子的第六矩阵Bm×d,并将第六矩阵Bm×d输入到第四BI-LSTM层和第四dropout层以得到第四输出矩阵
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910871720.8/1.html,转载请声明来源钻瓜专利网。