[发明专利]基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法有效
申请号: | 201480054951.5 | 申请日: | 2014-08-27 |
公开(公告)号: | CN105593845B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 池昌真 | 申请(专利权)人: | 系统翻译国际有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 梁洪源,康泉 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自学 排列 语料库 生成 装置 及其 方法 使用 破坏性 表达 语素 分析 | ||
1.一种排列语料库的生成方法,包括步骤:
构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及
对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库,
其中,所述双语语料库的构建步骤包括:
通过网络收集多个破坏性句子;
利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索,以判断该破坏性句子的普遍性;
当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及
将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
2.根据权利要求1所述的排列语料库的生成方法,其特征在于,
在所述普遍性的判断步骤中,
以利用所述查询的检索结果的量为基准,当超过基准量时,判断为该破坏性表达具有普遍性,
所述普遍性的判断通过利用多个门户网站的网络检索自动运行。
3.根据权利要求1所述的排列语料库的生成方法,其中,
生成所述排列语料库的步骤包括:
以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对,并初始化关联概率;
根据字符串的匹配及该匹配的概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;
重新计算新排列的各子字符串对之间的概率;及
满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤,当满足所述自学停止条件时,将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中,其中所述关联概率为所述破坏性表达和正常表达的排列概率值。
4.根据权利要求1所述的排列语料库的生成方法,其特征在于,
为了生成所述排列语料库,使用期望最大化算法,以便在自学基础上求出排列并且设定排列概率值。
5.一种排列语料库的生成装置,包括:
双语语料库构建部,用于构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中,所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及
自学部,对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库,
其中,所述双语语料库构建部包括:
破坏性句子收集器,通过网络收集多个破坏性句子;
普遍性判断器,利用查询对包含在通过所述破坏性句子收集器收集的破坏性句子中的破坏性表达进行网络检索,并判断该破坏性句子的普遍性;
正常句子生成器,当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及
构建器,将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
6.根据权利要求5所述的排列语料库的生成装置,其特征在于,
所述自学部包括:
双语语料库,由所述双语语料库构建部构建;及
自学排列部,对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值,从而生成所述排列语料库。
7.根据权利要求6所述的排列语料库的生成装置,其特征在于,
所述自学排列部包括:
初始化器,以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对,并初始化关联概率;
E-步骤处理器,根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;
M-步骤处理器,重新计算新排列的各子字符串对之间的概率;及
控制器,将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入,在所述M-步骤处理器的概率计算后,满足自学停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作,当满足所述自学停止条件时生成储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于系统翻译国际有限公司,未经系统翻译国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480054951.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于审计跟踪的无回滚阈值
- 下一篇:稀疏矩阵数据结构