[发明专利]一种字词结合的文本自动校对方法有效

专利信息
申请号: 201910349756.X 申请日: 2019-04-28
公开(公告)号: CN110134950B 公开(公告)日: 2022-12-06
发明(设计)人: 苏萌;苏海波;王然;檀玉飞;孙伟;高体伟 申请(专利权)人: 北京百分点科技集团股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 刘昕;南霆
地址: 100081 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 字词 结合 文本 自动 校对 方法
【说明书】:

发明公开了一种字词结合的文本自动校对方法,首先分别采用如下两种查错方法进行查错:1)基于n‑gram语言模型的查错方法;2)基于lstm语言模型的查错方法;然后将两种方法的查错结果求交集,得到最终的查错结果。本发明方法基于词符嵌入(word embeddings)技术、双向lstm网络、CRF(Conditional Random Field,条件随机场)模型等实现对输入文本进行分词与词性标注,在此基础上基于n‑gram模型、双向lstm语言模型以及规则策略,实现文本中存在的错误查找。

技术领域

本发明涉及数据处理技术领域,具体涉及一种字词结合的文本自动校对方法。

背景技术

文本自动校对是文本中出现的字、词、词语搭配、语义语法等错误进行查找以及纠正的一项技术,是自然语言处理的主要应用领域之一。

早期的自然语言处理系统主要是基于人工撰写的规则,这种方法不仅费时费力,并且无法覆盖各种语言现象。上个世纪80年代后期,由于计算机的计算能力不断提高,机器学习算法被引入到自然语言处理当中。研究主要集中在统计模型上,这种方法采用大规模的训练语料(corpus)对模型的参数进行自动的学习,和之前的基于规则的方法相比,这种方法更具鲁棒性。

统计语言模型(Statistical Language Model)就是在这样的环境和背景下被提出来的。它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型,即P(W1,W2,...Wk)。利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。

n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。给定句子(词语序列)S=W1,W2,...,Wk,它的概率可以表示为:

当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1,...,Wi-1)。假设词表的大小为100,000,那么n-gram模型的参数数量为100,000n。n越大,模型越准确,也越复杂,需要的计算量越大。最常用的是bigram,其次是unigram和trigram,n取≥4的情况较少。

n-gram最大的问题是概率估计得不是很精准,特别是n-gram中的n很大的时候,如果需要保证精度的话,那么需要的数据量很大,但是实际上不可能获得那么多训练数据,数据会变得稀疏。另外,n-gram只能统计固定长度(一般长度不超过3)的词序列的出现次数,而无法提取较长的上下文信息。

部分专业术语解释:

分词与词性标注:将一句话分成一个个单独的词语、并识别出每个词语的词性(如名词、动词、形容词等)标注出来。

Word2vec:是google公司开发的算法,通过无监督训练,将词变成一个几百维的向量,这种向量可以捕捉词语之间的语义相关性。也叫词向量或者词嵌入。

Tensorflow:Tensorflow是google开源的深度学习平台,提供了丰富的接口、多平台(CPU、GPU、HADOOP)和分布式支持、可视化监控。

LSTM:LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。其通过“记忆门”和“忘记门”来控制历史信息的去留,有效解决了传统循环神经网络长路径依赖问题。

CRF:CRF(Conditional Random Field)条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。CRF采用马尔科夫链作为隐含变量的概率转移模型,通过可观测状态判别隐含变量,属于判别模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910349756.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top