[发明专利]一种公文智能写作方法在审
申请号: | 202111626007.0 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114492327A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 叶恺翔;吕晓宝;王元兵;王海荣 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/216;G06F40/242;G06F40/289;G06F40/30;G06F16/335 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 徐博 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公文 智能 写作 方法 | ||
本发明公开了一种公文智能写作方法,首先在指定网站自动获取海量公文数据,并利用NLP技术进行公文文本数据的自动筛选、清洗;再对GPT模型进行两阶段训练,使其对公文文本的深层语义信息进行捕捉,学习到公文的语句的表征特点,获得自动公文写作的能力;最后在智能写作过程中,利用训练好的BERT模型,计算推荐文本集合中文本片段与用户自定义标题之间的关联分数,选取与用户标题语义最为匹配的推荐片段。该种智能写作方法能够学习到公文的内在深层表述逻辑,具有智能创作能力,能够极大提高公文写作效率。
技术领域
本发明属于计算机应用领域,具体涉及一种文本纠错方法。
背景技术
随着大规模自然语言处理模型的发展与落地,GPT等模型已取代了传统的神经网络,实现了机器模型对文本数据的理解。上亿级别的模型参数量能够拟合人理解文本的过程,学习到文本内在的逻辑与表达。基于这种能力,在政务领域中进行智能写作是一个新兴的技术研究方向。在进行政务公文写作时,需要构思政策性、程式化的语句表达,需要参考大量的公文文献作为辅助素材。传统的公文素材辅助,系统只能解析用户输入的关键词,通过正则表达式、文本相似度计算等基础检索算法,关联出最符合要求的文本片段集合推送给用户。这种算法只能推荐公文素材中的固有文本表达,无法学习到公文的内在深层表述逻辑,不具有智能创作能力。
发明内容
发明目的:本发明的目的在于提供一种公文智能写作方法。
技术方案:本发明所述的一种公文智能写作方法,该方法包括步骤如下:
(1)获取若干公文文本数据,经过文本筛选处理后,形成公文训练数据集;
(2)利用现有文本语料数据对生成式预训练语言模型进行第一阶段训练后,获取生成式预训练语言模型的初始参数,再利用步骤(1)中获取的公文训练数据集对生成式预训练语言模型进行微调,使模型收敛;
(3)当用户输入文本片段开始公文写作时,利用微调后的生成式预训练语言模型对后续字符位置的内容进行预测。
优选的,步骤(1)中在指定公文发布网站上获取公文文本数据,并按照设定周期获取指定网站内新发布的公文文本数据。
优选的,步骤(1)中文本筛选处理的步骤如下:
(a)将获取的每篇公文文本内的标签、空格、分隔符删除;
(b)利用自然语言处理算法对公文文本进行分词处理,将停用词比例高于第一设定比例的公文以及非中文字符占比超过第二设定比例的公文删除;
(c)将每篇公文文本内容按照自然段落进行分割,公文训练数据集中每条训练语句为一个自然段落。
优选的,步骤(2)中结合目标领域的专业词典,在训练过程中对文本数据切分词时保留完整的语义片段。
优选的,步骤(2)中生成式预训练语言模型微调阶段,将文本切分词语处理后的公文训练数据集按照设定比例划分为训练集、验证集和测试集,利用训练集对生成式预训练语言模型训练若干个周期,使模型收敛。
优选的,步骤(2)中将公文文本按照内容质量划分为若干个等级并设置对应的权重系数,生成式预训练语言模型训练过程中,通过损失函数结合训练文本对应的权重系数计算模型的损失。
优选的,步骤(2)中,在生成式预训练语言模型微调阶段中对模型进行验证时,在验证集中随机抽取设定数量的训练语句形成验证子集。
优选的,步骤(3)中当用户输入文本片段后,将用户输入的字符输入训练好的生成式预训练语言模型中,生成式预训练语言模型预测下个字符位置的内容并按顺序往后预测,直到标点符号为止,按照所有预测字符的概率得分乘积计算联合概率,由高到低输出若干个候选文本片段供用户选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111626007.0/2.html,转载请声明来源钻瓜专利网。