[发明专利]一种FST数据的压缩方法和装置有效
申请号: | 202010737012.8 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111884659B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 梁振兴 | 申请(专利权)人: | 广州智品网络科技有限公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510665 广东省广州市天河区员*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 fst 数据 压缩 方法 装置 | ||
本申请公开了一种FST数据的压缩方法和装置,其中方法包括:获取待压缩的FST数据,FST数据包括:状态连接弧数据和状态节点数据;将状态连接弧数据按照第一数据种类进行分解,得到第一分解数据;将状态节点数据按照第二数据种类进行分解,得到第二分解数据;将同一第一数据种类的第一分解数据按照先后顺序进行连续排列,得到各第一数据种类对应的第一排列数据;将第一排列数据与第二分解数据按照先后顺序进行混合排列,得到第二排列数据;将第一排列数据和第二排列数据进行分类统计,得到索引数据;将第一排列数据、第二排列数据和索引数据组合,以完成FST数据的压缩,有效减少了FST数据的占用空间,从而解决了数据空间浪费的技术问题。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种FST数据的压缩方法和装置。
背景技术
在自然语言处理技术领域中的语音识别、全文检索和输入法等应用中,搜索引擎在获取到输入信息后,将输入信息在词典索引中进行搜索,接着输出匹配结果。词典索引作为搜索时的匹配库,其的数据结构会影响搜索算法、搜索速度和匹配结果。
有限状态转换机(Finite-State Transducers,FST)是一种词典索引数据结构,如图1(A)所示为FST的简单结构示意图,主要包括:状态节点S1~S4和状态连接弧a1~a5,状态节点包括:起始状态标记和结束状态标记;如图1(B)所示为FST的简单数据结构示意图,状态连接弧数据包括:信号标签数据(label)、权重数据(weight)和下一状态节点标号数据(next state),状态节点数据包括附属状态连接弧标号数据,标记为结束的状态节点对应的状态节点数据又包括结束权重数据。FST数据中存在大量冗余数据,然而FST数据一般长期存储在应用终端,在终端资源有限的情况下,大量冗余数据会造成终端内存资源紧缺。所以,FST数据的压缩优化显得十分重要。
现有的数据压缩方法中,将标记为结束的状态节点的结束权重包装成状态连接弧的权重,生成统一格式的压缩数据保存起来。如图4所示为现有的FST的压缩数据结构示意图。上述的方法虽然可以取得一定的压缩效果,但是在将标记为结束的状态节点的结束权重包装成状态连接弧的权重的过程中,为了保持压缩数据格式的一致性,又将状态节点中不存在的下一状态节点标号加入到了压缩数据中,造成了数据空间的浪费。另外,当所有状态连接弧都不包括权重时,上述的方法仍然将状态连接弧中不存在的权重加入到了压缩数据中,造成了数据空间的浪费。
因此,提供一种FST数据的高效压缩方法是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请提供了一种FST数据的压缩方法和装置,有效减少了FST数据的占用空间,解决了数据空间浪费的技术问题。
本申请第一方面提供了一种FST数据的压缩方法,包括:
获取待压缩的FST数据,所述FST数据包括:状态连接弧数据和状态节点数据;
将所述状态连接弧数据按照第一数据种类进行分解,得到第一分解数据;
将所述状态节点数据按照第二数据种类进行分解,得到第二分解数据;
将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列,得到各所述第一数据种类对应的第一排列数据;
将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列,得到第二排列数据;
将所述第一排列数据和所述第二排列数据进行分类统计,得到索引数据;
将所述第一排列数据、所述第二排列数据和所述索引数据组合,以完成所述FST数据的压缩。
可选地,将所述状态连接弧数据按照第一数据种类进行分解,得到第一分解数据,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州智品网络科技有限公司,未经广州智品网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010737012.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置