[发明专利]一种基于强化学习的中文字库自动生成方法及系统有效
申请号: | 202110074336.2 | 申请日: | 2021-01-20 |
公开(公告)号: | CN112732943B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 连宙辉;刘亦天 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/583;G06F16/58;G06F17/18;G06N3/0464;G06N3/092 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 中文 字库 自动 生成 方法 系统 | ||
1.一种基于强化学习的中文字库自动生成方法,通过创建强化学习模块输出薄板样条TPS插值函数参数,并应用TPS插值函数将标准汉字骨架的每个笔画转化为目标风格;再对笔画实际位置与尺寸进行预测,将笔画骨架组合为汉字骨架;对汉字骨架进行渲染生成目标汉字图片,从而得到完整的中文字库文件;包括以下步骤:
第一步,用户设计或书写输入集合中的汉字,并制作成汉字图片,作为用户输入汉字图片;
第二步,对用户输入汉字图片进行骨架标注,并对汉字进行笔画拆分,得到部分目标风格汉字笔画骨架;每个笔画骨架均匀采样多个关键点及坐标信息;
第三步,建立强化学习模块、笔画位置预测模块和渲染模块;使用第二步得到的目标风格汉字笔画骨架与用户输入汉字图片对强化学习模块、笔画位置预测模块与渲染模块进行训练,学习由标准汉字骨架到目标风格汉字骨架的变换关系;包括:
3A)强化学习模块包括动作、状态、奖励函数和决策网络;使用强化学习模块对已有标准汉字笔画骨架进行形变,进而得到用户指定风格的汉字笔画骨架;使用已有标准汉字骨架、标准笔画骨架与用户输入汉字笔画骨架对强化学习模块进行训练;包括:
3Aa)设计多个锚点,用于通过TPS插值函数控制笔画骨架形变;
3Ab)将强化学习算法中的动作定义为锚点在应用TPS插值函数前后相对偏移量的方法;偏移量记为向量action,向量大小为25×2,向量action中的元素大小为-0.49到0.49;
3Ac)将汉字与笔画的状态表示为式(1):
st=(strokeskel;characterskel;step;coord) (1)
其中,st为汉字与笔画状态,作为强化学习模块的输入;变量strokeskel、characterskel、step、coord分别为标准笔画骨架、标准汉字骨架、归一化为0到1的步数、尺寸与图片相同且表示汉字图片上每一个点坐标的笛卡尔坐标系;
3Ad)定义奖励函数为经过TPS插值函数形变前后笔画骨架与目标骨架间L2距离,表示为式(2):
r(st,at)=Lt-Lt+1 (2)
其中,Lt为第t步应用TPS后距离,Lt+1为第t+1步应用TPS后距离;
3Ae)建立决策网络结构为Resnet18与单个全连接层;决策网络的输入为标准汉字骨架与标准笔画骨架,输出为动作action,即TPS插值函数锚点偏移量;
决策网络接收的输入经过卷积层提取特征后,使用全连接层输出动作action,并计算奖励函数reward;得到奖励函数后,使用强化学习更新算法对决策网络进行更新;
3B)建立笔画位置预测模块,通过笔画预测模块模型输出笔画位置信息并拼接笔画骨架为汉字骨架;
笔画预测模块模型的结构为Resnet34与单个全连接层,即在包含16个残差模块共34层的残差网络后增加全连接层;
笔画位置预测模块中,将汉字笔画骨架图片输入到残差网络中,得到特征向量后,再将向量输入到全连接层中,最后经过sigmoid层将输出正则化为-1到1的范围,作为模块最后的输出;
笔画预测模块模型的损失函数为L,通过最小化L来对笔画预测模块参数进行调整,得到最优参数值;损失函数表示为式(3)
其中,x,y,l分别为网络输出中心点坐标与边长,y,代表真实包围框参数;
第四步,通过强化学习模块与TPS插值函数对GB2312字符集中用户未提供的汉字的笔画进行形变调整,使得标准笔画骨架转换到目标风格笔画骨架;
通过强化学习模块的输出动作action与已有方法TPS插值函数对汉字笔画骨架进行形变的方法如下:
4A)定义TPS插值函数为:通过弯曲一个可视为二维平面的薄板,使得特定点在弯曲后位于目标点;即定义N个源点组成的向量Ps=(Ps1,Ps2,…,PsN)T,与N个目标点组成的向量Pt=(Pt1,Pt2,…,PtN)T;
当最小化弯曲能量函数时,插值函数表示为:
其中,cx与cy为标量,与为2×1向量,与为N×1向量;x与y下标代表对应变量x与y分量;S(Psi)被定义为式(6):
S(Psi)=(σ(Psi-Ps1)),…,σ(Psi-PsN))T (6)
其中ΔPsij=Psi-Psj;
此时已有N个约束条件,未知变量共N+3个,添加式(8)表示的约束条件:
求解得:
其中,源点Ps为锚点anchor,目标点Pt=anchor+acton;
求解得到TPS插值函数,表示为式(9),代入标准笔画骨架关键点Pks,得到经过形变调整后笔画骨架关键点Pkt;
Pkt=Φ(Pks)=C+ATPks+WTS(Pks) (9)
依次连接关键点并进行绘制可得形变后笔画骨架图片;
第五步,通过笔画位置预测模块对得到的笔画骨架进行笔画位置预测和组合拼接,得到用户指定风格的汉字骨架;包括如下过程:
当笔画骨架的横坐标或纵坐标相同时,笔画骨架最小矩形包围框退化为一条线段,使用最小正方形包围框确定笔画位置与尺寸;
笔画位置预测模块使用TPS插值函数形变后的笔画骨架与标准汉字骨架作为输入,经过多层卷积层、激活函数与全连接层后,输出笔画骨架正方形包围框中心点坐标与边长;再对所有笔画进行平移与线性放缩,并组合笔画骨架图片生成汉字骨架图片;
第六步,通过渲染模块将汉字骨架渲染为汉字图片;
第七步,将用户提供的汉字图片和生成的汉字图片组合得到完整的GB2312中文字库6763个汉字图片,并将汉字图片进行矢量化,即生成用户指定风格的字库文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110074336.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种照明设备及显微镜
- 下一篇:一种中波全频段快速换频装置及其换频方法