[发明专利]一种字词结合的文本自动校对方法有效
申请号: | 201910349756.X | 申请日: | 2019-04-28 |
公开(公告)号: | CN110134950B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 苏萌;苏海波;王然;檀玉飞;孙伟;高体伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字词 结合 文本 自动 校对 方法 | ||
本发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n‑gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n‑gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。
技术领域
本发明涉及数据处理技术领域,具体涉及一种字词结合的文本自动校对方法。
背景技术
文本自动校对是文本中出现的字、词、词语搭配、语义语法等错误进行查找以及纠正的一项技术,是自然语言处理的主要应用领域之一。
早期的自然语言处理系统主要是基于人工撰写的规则,这种方法不仅费时费力,并且无法覆盖各种语言现象。上个世纪80年代后期,由于计算机的计算能力不断提高,机器学习算法被引入到自然语言处理当中。研究主要集中在统计模型上,这种方法采用大规模的训练语料(corpus)对模型的参数进行自动的学习,和之前的基于规则的方法相比,这种方法更具鲁棒性。
统计语言模型(Statistical Language Model)就是在这样的环境和背景下被提出来的。它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型,即P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。
n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。给定句子(词语序列)S=W1,W2,...,Wk,它的概率可以表示为:
当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1,...,Wi-1)。假设词表的大小为100,000,那么n-gram模型的参数数量为100,000n。n越大,模型越准确,也越复杂,需要的计算量越大。最常用的是bigram,其次是unigram和trigram,n取≥4的情况较少。
n-gram最大的问题是概率估计得不是很精准,特别是n-gram中的n很大的时候,如果需要保证精度的话,那么需要的数据量很大,但是实际上不可能获得那么多训练数据,数据会变得稀疏。另外,n-gram只能统计固定长度(一般长度不超过3)的词序列的出现次数,而无法提取较长的上下文信息。
部分专业术语解释:
分词与词性标注:将一句话分成一个个单独的词语、并识别出每个词语的词性(如名词、动词、形容词等)标注出来。
Word2vec:是google公司开发的算法,通过无监督训练,将词变成一个几百维的向量,这种向量可以捕捉词语之间的语义相关性。也叫词向量或者词嵌入。
Tensorflow:Tensorflow是google开源的深度学习平台,提供了丰富的接口、多平台(CPU、GPU、HADOOP)和分布式支持、可视化监控。
LSTM:LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络长路径依赖问题。
CRF:CRF(Conditional Random Field)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。CRF采用马尔科夫链作为隐含变量的概率转移模型,通过可观测状态判别隐含变量,属于判别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349756.X/2.html,转载请声明来源钻瓜专利网。