[发明专利]一种对文本序列进行分词的方法、装置和电子设备有效
申请号: | 201711364208.1 | 申请日: | 2017-12-18 |
公开(公告)号: | CN108038103B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 苏海波;刘钰;刘译璟;杨哲铭;杨中亮 | 申请(专利权)人: | 沈阳智能大数据科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06N3/04 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 李潇 |
地址: | 110623 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 序列 进行 分词 方法 装置 电子设备 | ||
1.一种对文本序列进行分词的方法,其特征在于,所述方法包括:
确定与所述文本序列对应的概率矩阵,所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值,所述标注字符用于对所述文本序列进行分词;
确定与所述概率矩阵对应的转移矩阵,所述转移矩阵记录了所述每个标注字符之间的转移概率;
根据所述概率矩阵和转移矩阵,对所述文本序列进行分词;
其中,所述确定与所述概率矩阵对应的转移矩阵,具体为:
将所述概率矩阵输入至条件随机场模型CRF生成对应的转移矩阵;
条件随机场模型是一种无向图模型,是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布;
假设(X,Y)为一个线性链条件随机场,则线性链条件随机场P(Y|X)的参数化表示为:
其中,z(x)表示规范化因子,tk表示转移特征函数,Sι表示状态特征函数,λk和μι分别为上述特征函数对应的权值;一个线性链条件随机场由上述转移特征函数和状态特征函数以及它们的权值唯一确定,λk和μι的取值为1或0,当满足特征条件时取1,反之取0;
将概率矩阵输入CRF后,会通过最大似然概率算法得到转移矩阵,转移矩阵表示标注字符之间的转移概率;对于转移矩阵A,其中,转移矩阵A是一个方阵,设i为方阵的第i行,j为方阵的第j列,则Aij表示从第i个标注字符转移到第j个标注字符的概率;转移矩阵A通过训练过程最大化似然概率不断更新,经多次迭代后得到最优的转移矩阵A。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述文本序列对应的概率矩阵,包括:
获取所述文本序列中的每个字符的字符向量;
将所述字符向量代替对应的每个字符生成字符矩阵;
获取所述字符矩阵的特征向量;
根据所述特征向量,生成概率矩阵。
3.根据权利要求1所述的方法,其特征在于,所述根据所述概率矩阵和转移矩阵,对所述文本序列进行分词,包括:
根据所述概率矩阵和转移矩阵,确定与所述文本序列对应的标注序列;
根据所述标注序列中的标注字符对所述文本序列进行分词。
4.根据权利要求2所述的方法,其特征在于,所述获取所述文本序列中的每个字符的字符向量,包括:
获取字符向量的映射字典,所述映射字典记录了字符与对应字符向量的映射关系;
从所述字符向量的映射字典中查找所述每个字符的字符向量。
5.根据权利要求2所述的方法,其特征在于,所述获取所述文本序列中的每个字符的字符向量之前,所述方法还包括:
对采集的均衡语料进行预处理生成训练数据;
通过预设的模型对所述训练数据进行训练生成对应的字符向量模型;
根据所述字符向量模型生成字符向量的映射字典。
6.根据权利要求2所述的方法,其特征在于,所述根据所述特征向量,生成概率矩阵,包括:
将两个时间递归神经网络LSTM连接至同一输出层,所述两个LSTM的时序方向相反;
将所述特征向量分别输入至所述两个LSTM;
获取所述两个LSTM在预设时间段内的每一个时间节点生成的输出向量;
对所述每一个时间节点形成的输出向量进行拼接生成拼接向量;
将所述拼接向量传输至所述输出层生成输出向量;
将所述输出向量合成为概率矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳智能大数据科技有限公司,未经沈阳智能大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711364208.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐低温汽车空气滤芯的制备方法
- 下一篇:一种柔性绳导向稳定器