[发明专利]基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法有效
申请号: | 201480054951.5 | 申请日: | 2014-08-27 |
公开(公告)号: | CN105593845B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 池昌真 | 申请(专利权)人: | 系统翻译国际有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 梁洪源,康泉 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自学 排列 语料库 生成 装置 及其 方法 使用 破坏性 表达 语素 分析 | ||
技术领域
本发明涉及一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。
背景技术
最近,博客、特别是以Facebook和推特(Twitter)为首的社交平台、Kakaotalk等移动短信不仅在电脑,在智能手机上也已习以为常,并且其使用呈现出日益增加的趋势。
但在这种短信的使用过程中,泛滥着包含不符合拼写规定的错误的破坏性表达。在此,破坏性表达是指拼写错误或者没有规范化和标准化的表达,包含这种破坏性表达的句子称为破坏性句子。这种破坏性句子为因互联网的活性化和智能手机的普及而产生的新的语言使用范式。
破坏性句子虽然包含着作为非规范表达的破坏性表达,但不影响传递句子的含义。
另外,在机器翻译等的自然语言信息处理、检索、数据挖掘等中使用的语素分析中,其操作对象为不包含破坏性表达的正常句子。即,以往的语素分析中使用语素词典,该语素词典中储存有在语素分析中将要使用的语素知识或者语素信息。然而,如上所述的破坏性句子中所包含的已破坏的语素在其特性上不可能被收录于规范的语素词典中,并且将单纯破坏的语素加入语素词典的方式上也有局限性,因此具有对包含破坏性表达的破坏性句子难以进行语素分析的问题。
发明内容
本发明所要解决的技术问题是提供一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法,该生成装置及方法、该分析装置及分析方法能够对包含破坏性表达的破坏性句子进行准确的语素分析。
根据本发明的一个特征的排列语料库的生成方法,包括步骤:构建双语语料库,所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
在此,所述双语语料库的构建步骤包括:通过网络收集多个破坏性句子;利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索,以判断该破坏性句子的普遍性;当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
此外,本发明的特征在于,在所述普遍性的判断步骤中,以利用所述查询的检索结果的量为基准,当超过基准量时,判断为该破坏性表达具有普遍性,所述普遍性的判断通过利用多个门户网站的网络检索自动运行。
此外,生成所述排列语料库的步骤包括:以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对(sub-string pair),并初始化关联概率;根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;重新计算新排列的各子字符串对之间的概率;及满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤,当满足所述自学停止条件时,将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中,其中所述关联概率为所述破坏性表达和正常表达的排列概率值。
此外,本发明的特征在于,为了生成所述排列语料库,使用期望最大化(EM,Expectation-Maximization)算法,以便在自学基础上求出排列并且设定排列的概率值,其中所述自学是为了生成所述排列语料库而进行的。
根据本发明的另一特征的排列语料库的生成装置,包括:双语语料库构建部,用于构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及自学部,对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达的正常表达排列而成的排列语料库。
在此,所述自学部包括:双语语料库,由所述双语语料库构建部构建;及自学排列部,对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值,从而生成所述排列语料库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于系统翻译国际有限公司,未经系统翻译国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480054951.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于审计跟踪的无回滚阈值
- 下一篇:稀疏矩阵数据结构