[发明专利]日记生成方法及装置有效
申请号: | 201310260039.2 | 申请日: | 2013-06-26 |
公开(公告)号: | CN104252439B | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 董振华;张弓;王靓伟 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京中博世达专利商标代理有限公司11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日记 生成 方法 装置 | ||
技术领域
本发明涉及信息处理技术领域,尤其涉及一种日记生成方法及装置。
背景技术
目前,实现日记自动生成的方法如下:人工编写大量不同的日记生成规则和翻译模板,将通过外部设备所记录的用户行为数据根据该日记生成规则和翻译模板翻译成文本描述信息。通常,用户行为数据的来源可以有多种多样,例如用户行为数据可以是GPS传感器采集到的数据,或者可以是终端本身记录的用户通话记录等等,当用户行为数据来源不同时,在将用户行为数据翻译成文本描述信息时采用的规则和翻译模块也不相同。
因而,采用现有的日记自动生成方法在实现日记生成时,由于不同来源的用户行为数据需要采用不同的规则和翻译模板,而该规则和翻译模板需要人工进行编写,当出现新来源的用户行为数据时,采用现有的规则和翻译模板无法处理新类型的用户行为数据,导致实际使用时扩展性较差。
发明内容
本发明的实施例提供一种日记生成方法及系统,可以基于各种不同来源的数据实现日记自动生成。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种日记生成方法,包括:
获取源数据集合和与所述源数据集合对应的日记描述数据集合;
计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一个日记描述数据;
计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合;
根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,所述待翻译源数据序列为所述各个源数据序列中任一序列;
将所述目标日记描述数据序列翻译成日记描述文字。
结合第一方面,在第一方面的第一种实现方式中,还包括:
将所述源数据集合中的源数据进行相应词汇处理,得到词汇处理后的源数据;
将所述日记描述数据集合中的日记描述数据进行词汇处理,得到词汇处理后的日记描述数据。
结合第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述计算所述源数据集合中各个源数据序列和日记描述数据集合中各个日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括至少一个源数据,所述日记描述数据序列包括至少一个日记描述数据包括:
将位于同一预设时间段中的源数据集合和日记描述数据集合构建成一对平行语料,
其中,一对平行语料记为(S_all,T_all),S_all表示所述一对平行语料中的源数据集合,S_all=G1,...Gm;G1表示S_all中第一个词汇处理后的源数据,Gm表示S_all中第m个词汇处理后的源数据,m为源数据集合中词汇处理后的源数据的个数;T_all表示所述一对平行语料中的日记描述数据集合,T_all=A1,...An,其中,A1表示T_all中第一个词汇处理后的日记描述数据,An表示T_all中第n个词汇处理后的日记描述数据,n为日记描述数据集合中词汇处理后的日记描述数据的个数;
计算各个源数据序列和与所述各个源数据序列各自对应的日记描述数据序列的对位概率,得到对位概率集合,所述源数据序列包括S_all中至少一个词汇处理后的源数据,所述日记描述数据序列包括T_all中至少一个词汇处理后的日记描述数据。
结合第一方面的第一种实现方式,在第一方面的第三种实现方式中,所述计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合包括:
计算所述各个日记描述数据序列在日记描述数据集合中出现的概率,得到出现概率集合,所述日记描述数据序列包括日记描述数据集合中至少一个词汇处理后的日记描述数据。
结合第一方面的前述任一种实现方式,在第一方面的第四种实现方式中,根据所述对位概率集合和出现概率集合,从所述各个日记描述数据序列中确定与待翻译源数据序列对应的目标日记描述数据序列,包括:
搜索对位概率集合中各个P(S|T)和出现概率集合中各个P(T),其中,P(S|T)为源数据序列S与日记描述数据序列T的对位概率,P(T)为日记描述数据序列T在日记描述集合中出现的概率;
当S为待翻译源数据序列时,确定使得P(S|T)*P(T)的取值最大的T为目标日记描述数据序列。
结合第一方面的前述任一种实现方式,在第一方面的第五种实现方式中,所述根据所述目标日记描述数据序列生成日记描述文字,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310260039.2/2.html,转载请声明来源钻瓜专利网。