[发明专利]一种写作方法、装置及存储介质在审
申请号: | 202111075149.2 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113792543A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 王康;冯海洪;毛德平 | 申请(专利权)人: | 安徽咪鼠科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 闫客 |
地址: | 230000 安徽省合肥市高新区习友路33*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 写作 方法 装置 存储 介质 | ||
本发明公开了一种写作方法、装置及存储介质,属于信息处理技术领域,包括:获取写作任务,所述写作任务包括文章标题;根据所述文章标题,生成写作目录及与写作目录对应的列表内容;将所述列表内容作为所述预先训练好的写作模型的输入,得到一组编码数组;采用包含语料字符的字典对所述编码数组进行解码,得到与所述写作目录对应的分段落文章。本发明可生成分段落文章,且生成的文章灵活性强,适用于公文类文章写作。
技术领域
本发明涉及信息处理技术领域,特别涉及一种写作方法、装置及存储介质。
背景技术
公文类文章写作需要大量素材,具有一定难度,传统的针对新媒体写作、论文写作等研发的方案在写作灵活性及写作方式方面都不能满足公文类文章写作要求。
现有的智能写作方案主要存在的缺陷在于:一是,写作灵活性差,由句子排列组合而来;二是,由于使用排列组合,文本越长,计算量会急剧增大,所以不适合生成较长的文本;三是,没有考虑文章目录的情况,只能生成一整段的文章。
发明内容
本发明的目的在于提供一种智能写作方案,旨在解决现有技术写作灵活性差,无法生成多段落的文章的问题。
为实现以上目的,第一方面,提供一种写作方法,包括:
获取写作任务,所述写作任务包括文章标题;
根据所述文章标题,生成写作目录及与写作目录对应的列表内容;
将所述列表内容作为所述预先训练好的写作模型的输入,得到一组编码数组;
采用包含语料字符的字典对所述编码数组进行解码,得到与所述写作目录对应的分段落文章。
可选地,所述根据所述文章标题,生成写作目录及与写作目录对应的列表内容,包括:
提取所述文章标题的关键字;
从目录库中调取与所述关键字相关性排名前N位的目录作为待选择目录以供用户选择,并将用户选择目录作为所述写作目录;
对所述写作目录拆分得到所述列表内容。
可选地,所述采用包含语料字符的字典对所述编码数组进行解码,得到与所述写作目录对应的分段落文章,包括:
对所述编码数据进行归一化还原,得到还原后的整数数组;
采用所述包含语料字符的字典对所述整数数组进行解码,得到对应的段落文本;
将所述段落文本按照所述写作目录进行拼接,得到所述分段落文章。
可选地,所述写作模型采用GPT-2模型,所述GPT-2模型包括第一全连接层和基干网络,基干网络包括多层结构相同的Transformer结构层,基干网络后接第一全连接层,所述Transformer结构层包括依次连接的第二全连接网络层、自注意力层、第三全连接网络层和前馈神经网络层。
可选地,在所述将所述列表内容作为所述预先训练好的写作模型的输入,得到一组编码数组之前,还包括:
收集公文类素材,构建训练样本数据;
利用训练样本数据对所述写作模型进行训练,得到所述训练好的写作模型。
可选地,所述收集公文类素材,构建训练样本数据,包括:
将所述公文类素材切割为多篇文本语料;
遍历所有的所述文本语料,生成包含语料字符的字典;
采用BertTokenizer结合所述包含语料字符的字典对所述所有的文本语料进行编码,生成样本数组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽咪鼠科技有限公司,未经安徽咪鼠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111075149.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水泥熟料卸料装置
- 下一篇:纤维板用低烟毒复合阻燃剂及其制备方法