[发明专利]一种FST数据的压缩方法和装置有效

专利信息
申请号: 202010737012.8 申请日: 2020-07-28
公开(公告)号: CN111884659B 公开(公告)日: 2021-09-10
发明(设计)人: 梁振兴 申请(专利权)人: 广州智品网络科技有限公司
主分类号: H03M7/30 分类号: H03M7/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 黄忠
地址: 510665 广东省广州市天河区员*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 fst 数据 压缩 方法 装置
【说明书】:

本申请公开了一种FST数据的压缩方法和装置,其中方法包括:获取待压缩的FST数据,FST数据包括:状态连接弧数据和状态节点数据;将状态连接弧数据按照第一数据种类进行分解,得到第一分解数据;将状态节点数据按照第二数据种类进行分解,得到第二分解数据;将同一第一数据种类的第一分解数据按照先后顺序进行连续排列,得到各第一数据种类对应的第一排列数据;将第一排列数据与第二分解数据按照先后顺序进行混合排列,得到第二排列数据;将第一排列数据和第二排列数据进行分类统计,得到索引数据;将第一排列数据、第二排列数据和索引数据组合,以完成FST数据的压缩,有效减少了FST数据的占用空间,从而解决了数据空间浪费的技术问题。

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种FST数据的压缩方法和装置。

背景技术

在自然语言处理技术领域中的语音识别、全文检索和输入法等应用中,搜索引擎在获取到输入信息后,将输入信息在词典索引中进行搜索,接着输出匹配结果。词典索引作为搜索时的匹配库,其的数据结构会影响搜索算法、搜索速度和匹配结果。

有限状态转换机(Finite-State Transducers,FST)是一种词典索引数据结构,如图1(A)所示为FST的简单结构示意图,主要包括:状态节点S1~S4和状态连接弧a1~a5,状态节点包括:起始状态标记和结束状态标记;如图1(B)所示为FST的简单数据结构示意图,状态连接弧数据包括:信号标签数据(label)、权重数据(weight)和下一状态节点标号数据(next state),状态节点数据包括附属状态连接弧标号数据,标记为结束的状态节点对应的状态节点数据又包括结束权重数据。FST数据中存在大量冗余数据,然而FST数据一般长期存储在应用终端,在终端资源有限的情况下,大量冗余数据会造成终端内存资源紧缺。所以,FST数据的压缩优化显得十分重要。

现有的数据压缩方法中,将标记为结束的状态节点的结束权重包装成状态连接弧的权重,生成统一格式的压缩数据保存起来。如图4所示为现有的FST的压缩数据结构示意图。上述的方法虽然可以取得一定的压缩效果,但是在将标记为结束的状态节点的结束权重包装成状态连接弧的权重的过程中,为了保持压缩数据格式的一致性,又将状态节点中不存在的下一状态节点标号加入到了压缩数据中,造成了数据空间的浪费。另外,当所有状态连接弧都不包括权重时,上述的方法仍然将状态连接弧中不存在的权重加入到了压缩数据中,造成了数据空间的浪费。

因此,提供一种FST数据的高效压缩方法是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此,本申请提供了一种FST数据的压缩方法和装置,有效减少了FST数据的占用空间,解决了数据空间浪费的技术问题。

本申请第一方面提供了一种FST数据的压缩方法,包括:

获取待压缩的FST数据,所述FST数据包括:状态连接弧数据和状态节点数据;

将所述状态连接弧数据按照第一数据种类进行分解,得到第一分解数据;

将所述状态节点数据按照第二数据种类进行分解,得到第二分解数据;

将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列,得到各所述第一数据种类对应的第一排列数据;

将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列,得到第二排列数据;

将所述第一排列数据和所述第二排列数据进行分类统计,得到索引数据;

将所述第一排列数据、所述第二排列数据和所述索引数据组合,以完成所述FST数据的压缩。

可选地,将所述状态连接弧数据按照第一数据种类进行分解,得到第一分解数据,具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智品网络科技有限公司,未经广州智品网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010737012.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top