[发明专利]专利双语句对加工方法及系统有效
申请号: | 201911064809.X | 申请日: | 2019-11-01 |
公开(公告)号: | CN110807337B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 张孝飞;张迁;马伟;李帅;马毓昭 | 申请(专利权)人: | 北京中献电子技术开发有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/166;G06F40/137;G06F40/131 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 鄢功军 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 专利 双语 加工 方法 系统 | ||
1.一种专利双语句对加工方法,其特征在于:包括以下步骤:
在专利篇章级双语对齐语料中提取专利篇章级双语对齐语料的内容特征;
根据内容特征,对专利篇章级双语对齐语料进行内容模块的切分,并分级处理成多个内容分级模块;
对各内容分级模块进行段落模块切分,得到多个段落模块;
对多个段落模块分别进行分类整理,并标定各段落模块的类别;
根据各段落模块的类别,进行句子级对齐的分类整理;
根据句子级对齐的分类整理结果,结合专利大数据统计,进行句对齐;对句对齐结果进行筛选,形成专利双语对齐语料,并添加到语料库中,形成具有专利双语对齐语料的语料库;
其中,对各内容分级模块进行段落模块切分,得到多个段落模块的步骤,具体为:
将划分的每个内容模块进一步划分为段落模块:如果段落数目一致,将段落模块一一对应,形成段落级别对应双语对齐语料D1、D2、D3…DN;如果段落数目不一致,则返回内容模块对齐,形成内容模块双语对齐语料ND1;
其中,对多个段落模块分别进行分类整理,并标定各段落模块的类别的步骤,包括:将形成的内容模块双语对齐语料ND1分为内容模块句子级语料库ND1-J3;
其中,根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐的步骤,包括:对形成的内容模块句子级语料库ND1-J3进行句对齐;
其中,对形成的内容模块句子级语料库ND1-J3进行句对齐的步骤包括:
首先,根据中文语句列表与英文语句列表的句子数不确定的条件,将中文和英文对照的双语语料形成中文语句列表和英文语句列表;
第二,将中文语句列表与英文语句列表进行对应,形成句珠,句珠为一对一,一对多或者多对一,形成的句珠默认是对应的;并基于句珠各自对应的概率和相似度,形成唯一的句珠。
2.根据权利要求1所述的专利双语句对加工方法,其特征在于:在专利篇章级双语对齐语料中提取专利双语篇章级文章的内容特征的步骤,具体为:
根据专利的内容特征,形成内容特征对齐库;专利的内容特征包括专利的说明书摘要、摘要附图、说明书、说明书附图以及权利要求书。
3.根据权利要求2所述的专利双语句对加工方法,其特征在于:根据内容特征,对双语对齐篇章级语料进行内容模块的切分,并分级处理成多个内容分级模块的步骤,具体为:
根据专利内容特征对齐库,划分内容模块,分类如下:
一级分类包括说明书摘要、权利要求、说明书、说明书附图;
二级分类包括技术领域、背景技术、发明内容、附图说明、具体实施方式;
三级分类包括摘要附图、实施例。
4.根据权利要求1所述的专利双语句对加工方法,其特征在于:对多个段落模块分别进行分类整理,并标定各段落模块的类别的步骤,还包括:
将形成的段落级别对应双语对齐语料D1、D2、D3…DN根据句对数是否一致分为句对数一致库J1、J2、J3…JN和句对数不一致库NJ1、NJ2、NJ3…NJN。
5.根据权利要求4所述的专利双语句对加工方法,其特征在于:根据句子级的分类整理结果,结合专利大数据统计结果,进行句对齐的步骤,还包括:
对形成的句对数一致库J1、J2、J3…JN以及句对数不一致库NJ1、NJ2、NJ3…NJN分别进行句对齐。
6.根据权利要求5所述的专利双语句对加工方法,其特征在于:对形成的句对数一致库J1、J2、J3…JN进行句对齐的步骤包括:
首先,将中文和英文对照的双语语料形成句子数一致的中文语句列表和英文语句列表;
第二,将中文语句列表与英文语句列表进行一一对应,形成句珠,句珠是一对一的,形成的句珠默认是对应的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中献电子技术开发有限公司,未经北京中献电子技术开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911064809.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多数据源的数据整合装置
- 下一篇:一种制作无异味豆奶的装置及制备方法