[发明专利]一种路径解码方法、装置、计算机设备及存储介质在审
申请号: | 201911076169.4 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110852101A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 吴开宇 | 申请(专利权)人: | 北京儒博科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 101500 北京市密云区经济开发*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 路径 解码 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种路径解码方法、装置、计算机设备及存储介质。所述方法包括:根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。本发明实施例的技术方案,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。
技术领域
本发明实施例涉及文本处理技术领域,尤其涉及一种路径解码方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,出现了大量的短信息流,这些信息的数量巨大,但是长度一般都很短,此类信息多被称为短文本。具体地,短文本是指长度非常短,一般在140个字符以内的文本,例如常见的通过移动通信网络发出的手机短消息,通过及时通信软件发出的即时消息,网络日志的评论、互联网新闻的评论等。
在现有的路径解码方法中,通常先通过分词先将原始短文本划分为若干个词;确定出原始短文本对应的至少一个原始文本路径;然后对各个词进行标记;再通过隐马尔可夫模型(Hidden Markov Model,HMM)进行建模,通过维特比算法对HMM模型进行求解,确定出原始短文本对应的最优路径。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行。然而在计算机实际计算过程中路径概率往往远小于1,而计算机存储数据的精度有限无法保证路径概率可靠。以C++语言为例,用double类型存储路径概率,根据编译器的不同有效数字位是15位~16位,例如路径概率为3.24X 10-17则无法用double类型存储;此外,实际应用过程当中,由于很多词不会打上标签,因此转移概率的组合非常多;而考虑到性能问题,转移概率的文件不可能无限增大,很多转移概率并未收录,则路径概率在不断累乘过程中很容易碰到没有转移概率的情况,此时只能以极小的概率来表示无转移概率的情况,因此路径概率会变得更小,使得double类型难以存储。并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,需要通过一定的方式来尽可能地克服这一问题,但是在现有技术中还没有一种有效的解决方式。
发明内容
本发明提供一种路径解码方法、装置、计算机设备及存储介质,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。
第一方面,本发明实施例提供了一种路径解码方法,所述方法包括:
根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;
根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;
根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。
在上述实施例中,所述根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵,包括:
将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京儒博科技有限公司,未经北京儒博科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911076169.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于聚类算法的大工业用户细分方法
- 下一篇:一种医用内窥镜光学性能检测系统