[发明专利]生成汉语对联无效
申请号: | 200680032133.0 | 申请日: | 2006-07-03 |
公开(公告)号: | CN101253496A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | M·周;H-Y·沈 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 汉语 对联 | ||
1.一种包括计算机可读的指令的计算机可读介质,当所述指令执行时,使得 所述计算机扩充词汇知识库,包括以下步骤:
接收用自然语言编写的对联语料库,每个对联包括上联和下联;
将所述对联语料库解析成各个的上联词语和下联词语;以及
构造包括与上联词语和对应的下联词语相关联的概率信息的转换模型。
2.如权利要求1所述的计算机可读介质,还包括:
将下联词语的列表映射到所述对联语料库中对应的上联词语的集合;以及
构造包括所述下联词语列表和可映射到所列的下联词语的对应的上联词语的 集合的映射表。
3.如权利要求1所述的计算机可读介质,还包括构造包括一元、二元和三元 概率值中至少一些的所述下联词语的语言模型。
4.如权利要求3所述的计算机可读介质,还包括构造包括所述对联语料库中 上联和下联的句子计数的词语关联信息,其中所述句子计数包括具有词语x的句子 的数目、具有词语y的句子的数目,以及同时出现词语x和词语y的句子的数目。
5.如权利要求3所述的计算机可读介质,还包括使用所述转换模型和语言模 型构造隐马尔科夫模型。
6.一种包括计算机可读的指令的计算机可读介质,当所述指令执行时,使得 所述计算机扩充词汇知识库,包括以下步骤:
接收上联;
将所述上联解析成词语的序列;以及
访问包括下联词语的列表和可映射到所述列的下联词语的对应的上联词语的 集合的映射表。
7.如权利要求6所述的计算机可读介质,还包括使用所述上联的词语序列和 所述映射表构造候选下联的点阵。
8.如权利要求7所述的计算机可读介质,还包括:
使用词语或字重复过滤器;不重复映射过滤器;以及上联词语不重复过滤器 中中的至少一个来限制候选下联的数目。
9.如权利要求7所述的计算机可读介质,还包括使用Viterbi解码器从所述点 阵生成N个最佳候选下联的列表。
10.如权利要求8所述的计算机可读介质,还包括使用最大熵模型来重新排 列所述N个最佳候选的列表。
11.如权利要求10所述的计算机可读介质,其中重新排列包括计算包括转换 模型和语言模型以及词语关联评分中的至少一些的特征函数。
12.一种用于从上联生成下联的方法,包括以下步骤:
接收汉语对联的上联;
将所述上联解析成各个词语的序列;
在包括汉语词语条目以及对应的汉语词语集合的映射表中执行对所述序列中 每个词语的查找;以及
基于所述上联词语的序列和所述汉语词语的对应集合生成候选下联。
13.如权利要求12所述的方法,还包括通过基于词语或字重复、不重复映射 和上联词语不重复中的至少一个过滤来限制候选下联的数目。
14.如权利要求12所述的方法,还包括将Viterbi算法应用到所述候选下联以 生成N个最佳候选的列表。
15.如权利要求14所述的方法,还包括为N个最佳候选的列表的每个候选估 算特征函数,其中所述特征函数包括语言模型、词语转换模型以及词语关联信息中 的至少一些。
16、如权利要求15所述的方法,还包括基于概率使用最大熵模型来重新排列 所述N个最佳候选。
17.如权利要求12所述的方法,还包括使用汉语对联语料库,在给定下联词 语的情况下为上联词语构造包括条件概率值的词语转换模型
18.如权利要求17所述的方法,还包括为所述汉语语料库中的下联构造包括 一元、二元和三元概率值的语言模型。
19.如权利要求18所述的方法,还包括为所述训练语料库中的词语对估算包 括互信息的词语关联信息。
20.如权利要求12所述的方法,还包括:
接收汉语对联的语料库;
将所述汉语对联解析成各个词语;以及
对于每个选定的下联词语,映射上联词语的集合,以构造所述映射表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680032133.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盐酸曲马多的合成方法
- 下一篇:同步整流自驱动电路