[发明专利]一种对文本序列进行分词的方法、装置和电子设备有效

申请号：	201711364208.1	申请日：	2017-12-18
公开（公告）号：	CN108038103B	公开（公告）日：	2021-08-10
发明（设计）人：	苏海波;刘钰;刘译璟;杨哲铭;杨中亮	申请（专利权）人：	沈阳智能大数据科技有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06N3/04
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	李潇
地址：	110623 辽宁省沈***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本序列进行分词方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种对文本序列进行分词的方法，其特征在于，所述方法包括：

确定与所述文本序列对应的概率矩阵，所述概率矩阵记录有所述文本序列中的每个字符与预设的每个标注字符相匹配的概率值，所述标注字符用于对所述文本序列进行分词；

确定与所述概率矩阵对应的转移矩阵，所述转移矩阵记录了所述每个标注字符之间的转移概率；

根据所述概率矩阵和转移矩阵，对所述文本序列进行分词；

其中，所述确定与所述概率矩阵对应的转移矩阵，具体为：

将所述概率矩阵输入至条件随机场模型CRF生成对应的转移矩阵；

条件随机场模型是一种无向图模型，是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布；

假设(X，Y)为一个线性链条件随机场，则线性链条件随机场P(Y|X)的参数化表示为：

其中，z(x)表示规范化因子，t_k表示转移特征函数，S_ι表示状态特征函数，λ_k和μ_ι分别为上述特征函数对应的权值；一个线性链条件随机场由上述转移特征函数和状态特征函数以及它们的权值唯一确定，λ_k和μ_ι的取值为1或0，当满足特征条件时取1，反之取0；

将概率矩阵输入CRF后，会通过最大似然概率算法得到转移矩阵，转移矩阵表示标注字符之间的转移概率；对于转移矩阵A，其中，转移矩阵A是一个方阵，设i为方阵的第i行，j为方阵的第j列，则A_ij表示从第i个标注字符转移到第j个标注字符的概率；转移矩阵A通过训练过程最大化似然概率不断更新，经多次迭代后得到最优的转移矩阵A。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述文本序列对应的概率矩阵，包括：

获取所述文本序列中的每个字符的字符向量；

将所述字符向量代替对应的每个字符生成字符矩阵；

获取所述字符矩阵的特征向量；

根据所述特征向量，生成概率矩阵。

3.根据权利要求1所述的方法，其特征在于，所述根据所述概率矩阵和转移矩阵，对所述文本序列进行分词，包括：

根据所述概率矩阵和转移矩阵，确定与所述文本序列对应的标注序列；

根据所述标注序列中的标注字符对所述文本序列进行分词。

4.根据权利要求2所述的方法，其特征在于，所述获取所述文本序列中的每个字符的字符向量，包括：

获取字符向量的映射字典，所述映射字典记录了字符与对应字符向量的映射关系；

从所述字符向量的映射字典中查找所述每个字符的字符向量。

5.根据权利要求2所述的方法，其特征在于，所述获取所述文本序列中的每个字符的字符向量之前，所述方法还包括：