[发明专利]分词处理方法及装置有效
申请号: | 201811129922.7 | 申请日: | 2018-09-27 |
公开(公告)号: | CN110969016B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛;李相雨 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 处理 方法 装置 | ||
本发明实施例提供一种分词处理方法及装置。所述方法包括:获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。本发明实施例解决了现有技术中,分词过程中对依赖于语料库的依赖程度较高的问题。
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种分词处理方法及装置。
背景技术
分词技术是搜索引擎中,针对用户提交查询的关键词串进行处理,将关键词串进行分词的一种技术;随着深度学习的兴起,基于统计的分词方法已被各大公司采用。具体地,基于统计的分词方法的整体框架依次包括:卷积神经网络(Convolutional NeuralNetwork,CNN)层、双向长短时记忆网络(Bidirectional Long Short-Term Memory,BLSTM)层以及预测层(Softmax)。
在CNN层,向其中输入单个汉字时,通过工具将每个字转换为一个字向量,比如“我”对应向量v1;这样,将一句话转换为一串可识别的字向量。
然后将字向量以句子为单位得到句向量,输入到CNN进行特征提取;其中,卷积神经网络被广泛应用于人脸识别、语音识别、自然语言处理等方向的特征提取工作。典型的卷积神经网络主要包含输入层、卷积层、池化(Pool)层、全连接层以及输出层。
首先将句向量输入至输入层,经由卷积层进行卷积操作;卷积层包含可学习的卷积核和激活函数,输入的句向量与卷积核进行卷积运算,再将卷积结果输入至激活函数,输出卷积结果。
卷积层输出的卷积结果进入池化层,池化层采用最大值池化来消除信号的偏移和扭曲,最终结果输出到全连接层;全连接层将多层卷积池化运算后的多组特征依次组合为一组向量;该向量经由输出层输出到BLSTM层中进行学习。
在BLSTM层,BLSTM包括一系列门单元,BLSTM主要由两个LSTM网络堆叠起来,一个从正向读取文本,另一个反向获取文本,这样可同时获取文本的前后文信息。BLSTM接受CNN特征提取层的向量输入,并主动学习长程依赖信息并抛弃冗余信息,将处理后的信息输入至Softmax层。
在Softmax层,Softmax层将BLSTM层的输入信息转化为归一化的概率形式,得到输入信息对应的各个标签的概率,然后选取概率最高的标签作为最终标记结果;其中,标签为该分词在一句话中的位置标识,比如孤立的分词、中间位置、句首以及句尾等;这样,在给每个分词打上标签后,就得到了分词结果,后续根据分词结果进行搜索或其他处理。
然而,现有技术中,分词过程中,依赖于语料库的依赖程度较高,若遇到未登录词,则分割几乎无法完成,对分词精度造成一定的损失。
发明内容
本发明实施例提供一种分词处理方法及装置,用以解决现有技术中,分词过程中对依赖于语料库的依赖程度较高的问题。
一方面,本发明实施例提供一种分词处理方法,所述方法包括:
获取待处理语句的预分词结果以及所述预分词结果中的分词的标签参数,其中,所述预分词结果中包括依次排列的至少两个所述分词;所述标签参数包括所述分词对应的各个标签的概率,所述标签用于指示所述分词的位置属性;
根据所述分词的排列次序,依次将所述标签组成原始路径;其中,所述原始路径中包括每个所述分词的一个标签;
根据预设算法,确定所述原始路径中综合点互信息值最大的目标路径,将所述目标路径对应的标签内容作为分词结果;其中,所述综合点互信息值为所述原始路径中的标签概率与点互信息值的乘积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811129922.7/2.html,转载请声明来源钻瓜专利网。