[发明专利]处理方法和装置、用于处理的装置有效
申请号: | 201710157267.5 | 申请日: | 2017-03-16 |
公开(公告)号: | CN108628819B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 姜里羊;王宇光;陈伟;程善伯 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 方法 装置 用于 | ||
1.一种处理方法,其特征在于,包括:
获取待处理文本;
依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果;其中,所述最优断句结果的综合翻译质量最优,所述最优断句结果包括:至少一个句子,所述综合翻译质量为断句结果包含的所有句子对应翻译质量的综合;
输出所述处理文本对应的最优断句结果;
其中,所述获取所述待处理文本对应的最优断句结果,包括:依据所述待处理文本包含的预置标点符号,确定所述待处理文本对应的分句序列集合;按照所述分句序列集合的子集从小到大的顺序,通过递推方式确定各子集对应最优子集断句结果的回溯分割点;所述最优子集断句结果对应的综合翻译质量最优;依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果;
所述分句序列集合的子集包括:所述待处理文本的前i个分句,前i个分句对应的最优子集综合翻译质量得分表示为F(i),0≤i≤所述待处理文本的分句数量M,则所述通过递推方式确定各子集对应最优子集断句结果的回溯分割点,包括:利用分割点k对所述前i个分句进行断句,以得到所述前i个分句和所述分割点k对应的第一语义单元的最优子集综合翻译质量得分F(k)、以及第二语义单元的翻译质量得分;其中,所述第一语义单元包括:所述前i个分句包括的位于分割点k之前的分句,所述第二语义单元包括:所述前i个分句包括的位于分割点k之后的分句,0≤ki;对F(k)以及所述第二语义单元的翻译质量得分进行综合,以得到所述前i个分句和分割点k对应的综合翻译质量得分;依据所述前i个分句和分割点k对应的综合翻译质量得分,从所述前i个分句对应的至少一个分割点k中获取最优综合翻译质量得分对应的目标分割点;将所述目标分割点作为所述前i个分句对应最优子集断句结果的回溯分割点,以及,将所述目标分割点对应的综合翻译质量得分作为所述前i个分句对应的最优子集综合翻译质量得分F(i)。
2.根据权利要求1所述的方法,其特征在于,所述依据所述分句序列集合的各子集对应最优子集断句结果的回溯分割点,得到所述待处理文本对应的最优断句结果,包括:
对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,以得到所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点;
依据所述分句序列集合的最大子集对应最优子集断句结果的回溯分割点,对所述待处理文本进行断句,以得到所述待处理文本对应的最优断句结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述分句序列集合的各子集对应最优子集断句结果的回溯分割点进行回溯,包括:
获取前i个分句对应的第一回溯分割点P1;
获取所述待处理文本包括的位于所述第一回溯分割点P1之前的分句对应的第二回溯分割点P2。
4.根据权利要求1所述的方法,其特征在于,所述依据基于所述待处理文本包含的预置标点符号得到的分割点,获取所述待处理文本对应的最优断句结果,还包括:
依据基于所述待处理文本包含的预置标点符号得到的分割点,对所述待处理文本进行断句处理,以得到所述待处理文本对应的多种断句结果;
确定所述断句结果对应的综合翻译质量;
从所述待处理文本对应的多种断句结果中选择综合翻译质量最优的断句结果,作为所述待处理文本对应的最优断句结果。
5.根据权利要求1或4所述的方法,其特征在于,所述预置标点符号包括:逗号和/或分号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710157267.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息获取方法和装置
- 下一篇:短文本问答形式的通信方法