[发明专利]一种句对匹配方法、装置和用于匹配句对的装置在审

专利信息
申请号: 202110730117.5 申请日: 2021-06-29
公开(公告)号: CN113343647A 公开(公告)日: 2021-09-03
发明(设计)人: 杨正彪;许静芳;鲁涛;戴磊;李质轩;殷明明;王青龙 申请(专利权)人: 北京搜狗科技发展有限公司
主分类号: G06F40/154 分类号: G06F40/154;G06F40/157;G06F40/242;G06F40/279;G06F40/58
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华
地址: 100084 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 匹配 方法 装置 用于
【权利要求书】:

1.一种句对匹配方法,其特征在于,所述方法包括:

从网页库内的网页中抽取包含目标语言语句的句段,以得到句段集;其中,所述句段集中的每个句段包括目标语言的语句以及所述语句的上下文;

将双语数据集中的双语句对与所述句段集中的句段进行匹配;所述双语句对中包括源语言的第一语句和对应目标语言的第二语句;

对于所述双语数据集中的每一个双语句对,确定所述句段集中与所述双语句对相匹配的句段,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页;其中,所述与所述双语句对相匹配的句段为同时包含所述双语句对中的第一语句与第二语句的句段。

2.根据权利要求1所述的方法,其特征在于,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:

遍历所述句段集中的每个句段,从所述句段包括的目标语言的语句中提取目标语言片段,得到目标语言片段集;

将所述双语数据集中双语句对包括的第二语句与所述目标语言片段集中的目标语言片段进行匹配,以确定所述目标语言片段集中与第二语句一致的目标片段;

确定所述双语数据集中与所述目标片段一致的第二语句所属的目标双语句对,若所述目标双语句对包括的第一语句位于所述目标片段所属的句段中,则确定所述目标双语句对与所述目标片段所属的句段相匹配。

3.根据权利要求1所述的方法,其特征在于,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:

遍历所述句段集中的每个句段,从所述句段包括的上下文中提取源语言片段,得到源语言片段集;

将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,以确定所述源语言片段集中与第一语句一致的目标片段;

确定所述双语数据集中与所述目标片段一致的第一语句所属的目标双语句对,若所述目标双语句对包括的第二语句位于所述目标片段所属的句段中,则确定所述目标双语句对与目标片段所属的句段相匹配。

4.根据权利要求3所述的方法,其特征在于,所述将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配,包括:

基于所述双语数据集中双语句对包括的第一语句,建立字典树;

基于所述字典树,将所述双语数据集中双语句对包括的第一语句与所述源语言片段集中的源语言片段进行匹配。

5.根据权利要求1所述的方法,其特征在于,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:

从所述双语数据集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到子句集;

从所述句段集中删除不包含所述子句集中的任一子句的句段。

6.根据权利要求1所述的方法,其特征在于,在将双语数据集中的双语句对与所述句段集中的句段进行匹配之前,所述方法还包括:

将所述双语数据集划分为多个双语数据子集;

从各双语数据子集中双语句对包括的每个第一语句中截取长度为预设值的至少一个子句,得到与各双语数据子集对应的子句集;

对于每一个双语数据子集,将所述双语数据子集对应的子句集作为目标子句集,将所述句段集中包含所述目标子句集中的子句的句段作为目标句段,得到与该双语数据子集对应的目标句段集;

以及,所述将双语数据集中的双语句对与所述句段集中的句段进行匹配,包括:

将各双语数据子集中的双语句对与相应的目标句段集中的句段进行匹配。

7.根据权利要求1所述的方法,其特征在于,所述将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页,包括:

检测所述网页库中与所确定的句段对应的网页所在的网站是否为有效网站;

响应于所述网站为有效网站,将所述网页库中与所确定的句段对应的网页确定为该双语句对的来源网页。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110730117.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top