[发明专利]一种公文文档纠错的方法在审
申请号: | 201911197178.9 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111090986A | 公开(公告)日: | 2020-05-01 |
发明(设计)人: | 李建华;谢可;庄莉;梁懿;苏江文;王秋琳;刘泽三;邱镇 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 林祥翔;郭鹏飞 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公文 文档 纠错 方法 | ||
一种公文文档纠错的方法,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;使用双向字符级N‑gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集。上述方案结合行文规范、内容不全的、立题不明、语法纠错、通顺性检测、上下文关联等审核要求,该特点对现有技术方案进行创新改造和结合,经过测试能够有效提升企业电子公文文档纠错的效果。
技术领域
本发明涉及文本分析领域,尤其涉及一种辅助公文文档纠错的方法。
背景技术
随着信息化建设的不断推进和无纸化办公迅速发展,各级业务部门产生了大量电子文档,电子文档作为企业生产经营的信息资源,文档质量控制与管理直接关系到企业形象和办公效率,特别企业公文文档质量的保障是一项极富挑战和专业水准的工作。因此,提供实时的无处不在的引导、纠错和辅助功能,最大限度地保证拟稿人在拟稿过程中获得全方位的帮助,可以从源头上切实加强了公文内容的质量管理。
企业公文文档质量问题虽然纷繁复杂、表现不一,但大体可归为两类:形式和内容。即以要素版式、格式差错为代表的形式问题和以要素内涵偏差为代表的内容问题。对公文的文体格式、行文规则等进行智能引导和实时控制,通过清晰友好的人机交互界面将公文管理报批规则和公司的运营管控思路融入到电子公文的纠错及校审当中来,可以极大的提高企业公文管理质量,推进规范化、信息化的发展,助力企业发展。
本发明提出一种面向企业电子公文类文档纠错的方法和系统,充分利用企业公文文档的特点,设计了针对性的算法和解决方案,从而能够有效提升企业公文文档纠错的准确度、覆盖度和效果。
发明内容
为此,需要提供一种公文文档纠错的方法,解决特定类型文档纠错不够全面的问题。
为实现上述目的,发明人提供了一种公文文档纠错的方法,包括步骤,文种检测,利用机器学习进行文种识别模型训练,将文档文种分类为通知、报告、批复、通报、函、会议纪要、请示之类型;
错误检测步骤,包括通过中文分词器切词,从字粒度和词粒度方面检测错误,整合这两种粒度检测的疑似错误结果,形成疑似错误位置候选集;
使用双向字符级N-gram LM深度学习模型,对句子里的字符打分,得分低的地方视为待纠错位置,将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字,加入错误位置候选集;
通过传统语言模型对输入的单词序列判断其是否合乎给定的语法,分析出合乎语法的句子的句法结构,并进行打分,低于阀值的句法结构,纳入规范错误候选集;
知识计算环节,利用文本关联及文本理解两个维度的局部知识进行纠错,关联知识纠错包括,通过原始错误标题在标准语料中基于检索或者上下文模式匹配的方式,补充同原始标题相关的精准局部知识,利用局部知识来辅助纠错排序;文本理解纠错包括,通过对文本进行语义分析得到语义特征,利用 LSTMs模型进行表达应用到纠错排序模型中。
进一步地,还包括候选召回,还包括结合公文行文规范及内容检测生成候选召回,基于HMM和图理论方法生成纠错候选。
具体地,所述文种识别模型建立包括如下步骤,
基于词典匹配的方法,在文本中查找文种类型为K的词库中的词汇,
从文本中提取每个标题的词法表达式,筛选出新增的词法表达式模型, 加入到类型为K的候选模式库中,计算每个候选模式的得分,选择得分大于阈值t1的模式加入到类型为K的模式库T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197178.9/2.html,转载请声明来源钻瓜专利网。