[发明专利]用于图纸排版的文本断句方法及系统在审
申请号: | 201710187190.6 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107038152A | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 席斌;李明;王兴强;彭成超 | 申请(专利权)人: | 成都优译信息技术股份有限公司 |
主分类号: | G06F17/25 | 分类号: | G06F17/25;G06F17/27;G06K9/62 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 冯龙 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 图纸 排版 文本 断句 方法 系统 | ||
技术领域
本发明涉及图纸排版,具体涉及用于图纸排版的文本断句方法及系统。
背景技术
随着国际合作日益加强,无论是中国公司还是外国公司,在国际工程与国际科研的立项及开展过程中,都需要通过图纸文件与对方进行交流。图纸文件中的注释内容、公司信息和标注等文本往往需要进行非语法的断句,由于各种语言文化的差异,这些文本断句往往也存在极大的区别,增大了文本断句的难度。
传统对图纸排版中文本的断句,往往采用人工排版和人工断句,费时费力,成本较高;同时,对不同语言的图纸需要不同的工作人员对其进行排版和断句,极大的降低了图纸排版效率。
发明内容
本发明所要解决的技术问题是在图纸排版中采用人工断句时,费时费力,成本较高,多语种图纸文本断句效率低下,目的在于提供用于图纸排版的文本断句方法及系统,解决上述问题。
本发明通过下述技术方案实现:
用于图纸排版的文本断句方法,包括以下步骤:S1:对完成断句的句群进行SVM学习;S2:利用学习后的SVM对需要断句的句群进行分析;S3:根据分析结果对需要断句的句群进行断句。
现有技术中,图纸排版中采用人工断句时,费时费力,成本较高,多语种图纸文本断句效率低下。本发明应用时,先对完成断句的句群进行SVM学习,再利用学习后的SVM对需要断句的句群进行分析,然后根据分析结果对需要断句的句群进行断句,从而实现对图纸排版中的文字进行机器断句,提高了文本断句效率,降低了成本。对断句的句群进行机器学习时,由于句群的特征量庞大,使得学习样本为高维样本,一般的机器学习方法在这里需要对学习样本进行降维处理,同时,句群的特征量一般为非线性数据,一般的机器学习方法对非线性问题处理效果不好。针对以上两个特点,发明人通过大量实验和创造性劳动,优选出SVM作为本发明的机器学习方法,SVM适合解决高维问题,而不需要对学习样本进行降维处理,提高了文本断句效率,同时SVM适合解决非线性问题,提高了本发明的处理效果。SVM比起其他机器学习方法,还具有小样本情况下,机器学习的能力,这就使得进行多语种图纸文本断句时,只需要增加一个语种的小样本进行学习,就可以实现对该语种图纸文本的断句, 提高了多语种图纸文本断句的效率。
进一步的,步骤S1包括以下子步骤:S11:收集完成断句的句群;S12:标记完成断句的句群中需要提取特征的地方;S13:对标记后句群的特征进行SVM学习。
本发明应用时,先收集完成断句的句群,再标记完成断句的句群中需要提取特征的地方,然后对标记后句群的特征进行SVM学习。本发明通过对完成断句的句群进行标记,提高了提取特征的准确性和效率。
再进一步的,步骤S13中所述SVM学习包括利用线性核函数对特征进行处理。
本发明应用时,所述SVM学习包括利用线性核函数对特征进行处理。SVM在机器学习的过程中,需要数据是可分的,而句群的特征量在当前维度是不可分的,于是需要通过核函数对该句群的特征量进行升维使得句群的特征量在更高的维度上可分。发明人选取了线性核函数、多项式核函数、sigmoid核函数和高斯核函数等多种核函数进行大量的实验和创造性劳动发现,多项式核函数、sigmoid核函数和高斯核函数在机器学习过程中,会使得SVM出现过学习现象,从而将线性核函数优选为本发明所使用的核函数,使得SVM学习过程更加稳定,对文本断句处理更加准确。
再进一步的,所述SVM学习后形成二元分类器。
本发明应用时,SVM学习后形成二元分类器,使得SVM在对需要断句的句群分析时,只需要通过二元分类器将该句群的特征值与学习的特征值进行“是”与“否”的判断,就可以得出需要断句的位置,提高了文本断句效率。
进一步的,步骤S2包括以下子步骤:S21:输入需要断句的句群;S22:标记需要断句的句群中需要提取特征的地方;S23:对标记后句群的特征通过SVM进行分析。
本发明应用时,先输入需要断句的句群,再标记需要断句的句群中需要提取特征的地方,然后对标记后句群的特征通过SVM进行分析。本发明通过对需要断句的句群进行标记,提高了提取特征的准确性和效率。
用于图纸排版的文本断句系统,包括:对完成断句的句群进行SVM学习的学习单元;利用学习后的SVM对需要断句的句群进行分析的分析单元;根据分析结果对需要断句的句群进行断句的断句单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优译信息技术股份有限公司,未经成都优译信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710187190.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种恒张力自动放卷储料机构
- 下一篇:波纹管成型机