[发明专利]一种公文文档纠错的方法在审
申请号: | 201911197178.9 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111090986A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 李建华;谢可;庄莉;梁懿;苏江文;王秋琳;刘泽三;邱镇 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 林祥翔;郭鹏飞 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公文 文档 纠错 方法 | ||
1.一种公文文档纠错的方法,其特征在于,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;
错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;
使用双向字符级N-gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集;
通过传统语言模型对输入的单词序列判断其是否合乎给定的语法,分析出合乎语法的句子的句法结构,并进行打分,低于阀值的句法结构,纳入规范错误候选集;
知识计算环节,利用文本关联及文本理解两个维度的局部知识进行纠错,关联知识纠错包括,通过原始错误标题在标准语料中基于检索或者上下文模式匹配的方式,补充同原始标题相关的精准局部知识,利用局部知识来辅助纠错排序;文本理解纠错包括,通过对文本进行语义分析得到语义特征,利用LSTMs模型进行表达应用到纠错排序模型中。
2.根据权利要求1所述的公文文档纠错的方法,其特征在于,还包括结合公文行文规范及内容检测生成候选召回,基于HMM和图理论方法生成纠错候选。
3.根据权利要求1所述的公文文档纠错的方法,其特征在于,所述文种识别模型建立包括如下步骤,
基于词典匹配的方法,在文本中查找文种类型为K的词库中的词汇,
从文本中提取每个标题的词法表达式,筛选出新增的词法表达式模型,加入到类型为K的候选模式库中,计算每个候选模式的得分,选择得分大于阈值t1的模式加入到类型为K的模式库T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197178.9/1.html,转载请声明来源钻瓜专利网。