[发明专利]用于确定中文词性的设备和方法无效
申请号: | 200910008355.4 | 申请日: | 2009-02-26 |
公开(公告)号: | CN101520778A | 公开(公告)日: | 2009-09-02 |
发明(设计)人: | 出羽达也 | 申请(专利权)人: | 株式会社东芝 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 永新专利商标代理有限公司 | 代理人: | 钟胜光 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 中文 词性 设备 方法 | ||
技术领域
本发明涉及一种用于确定中文单词序列中每个单词词性的设备和方法。
背景技术
在例如机器翻译所使用的自然语言处理过程中,常常需要确定输入语句中单词的词性。为了确定词性,需要事先向词典中存储的单词赋予词性。JP-A H11-212974(特开)提供了一种技术,通过利用另一种语言的词性降低了向词典中存储的目标语言单词赋予词性所需的工作量。
一般而言,在诸如日文、英文和中文之类的很多语言中,一个单词可以具有多个词性而没有任何表面变化。于是,对于能具有多个词性的这种单词而言,必需要确定在输入语句中该单词使用的是哪个词性。
例如,含义为“to manage”的中文动词是用两个中文字符表达的。另一方面,还可以将相同的两个中文字符用作含义为“management”的名词。于是,有必要提出一种方法,来根据输入语句的语境,准确地确定这两个中文字符使用的是什么词性(即,动词或名词)。作为从多个词性候选中选择适当词性的方法范例,一般知道有诸如“隐藏马克波夫模型(Hi ddenMarkov Model)”之类的统计学方法。
然而,在使用这种统计学方法时,仍然有一个问题,即必需要获取大量的训练数据来充当用于获得统计值的正确答案范例。此外,为了创建训练数据,必需要人工检查涉及这种有多个词性的单词的所有范例。
发明内容
根据本发明的一个方面,一种确定每个中文单词词性的词性确定设备包括:单词序列存储单元,其对应地存储均由连接在一起使用的多个单词构成的日文单词序列以及在所述日文单词序列中包含的单词的日文词性;词性对应存储单元,其对应地存储日文词性和中文词性;输入单元,其接收中文单词序列的输入;翻译单元,其将所述中文单词序列翻译成日文的形式来生成经翻译的单词序列;搜索单元,其利用所述经翻译的单词序列中包含的连续日文单词作为关键词序列,从所述单词序列存储单元中搜索与所述日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性;获得单元,其从所述词性对应存储单元获得与在所述搜索中找到的所述日文词性相对应的两个或更多所述中文词性;以及确定单元,其确定所获得的中文词性是被翻译成所述关键词序列中包含的日文单词的相应的中文单词的词性。
根据本发明的另一个方面,一种由确定每个中文单词词性的词性确定设备实施的词性确定方法包括:接收中文单词序列的输入;通过将所述中文单词序列翻译成日文的形式来生成经翻译的单词序列;利用所述经翻译的单词序列中包含的连续日文单词作为关键词序列,从单词序列存储单元中搜索与日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性,所述单词序列存储单元对应地存储均由连接在一起使用的多个单词构成的所述日文单词序列以及在所述日文单词序列中包含的单词的日文词性;从词性对应存储单元获得与在所述搜索中找到的所述日文词性相对应的两个或更多所述中文词性,所述词性对应存储单元对应地存储日文词性和中文词性;以及确定所获得的中文词性是被翻译成所述关键词序列中包含的日文单词的相应的中文单词的词性。
附图说明
图1是充当根据本发明实施例的词性确定设备的词语提取设备的方框图;
图2是平行翻译词典数据结构范例的图示;
图3是平行翻译词典数据结构另一范例的图示;
图4是单词序列存储单元中所存数据的数据结构范例的图示;
图5为词性对应存储单元中所存数据的数据结构范例的图示;
图6是根据本发明实施例的词语提取过程总流程的流程图;
图7是处理表格范例的图示;
图8是处理表格另一范例的图示;
图9是处理表格另一范例的图示;以及
图10是用于解释根据本发明实施例的词性确定设备的硬件配置的图示。
具体实施方式
将参考附图详细描述根据本发明的设备和方法的示范性实施例。
为了确定中文单词的词性,根据本发明实施例的词性确定设备利用了与日文有关的如下特征(1)、(2)和(3),日文是一种使用类似于中文所用字符的中文字符的语言:
(1)可以将一些既能用作动词又能用作名词的中文单词与日文中的“SA-hen”名词对应起来;
(2)确定日文中“SA-hen”名词的词性比确定对应中文单词的词性更容易;以及
(3)日文和中文中复合名词的构成(即词序)有一些相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝,未经株式会社东芝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910008355.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磁控管
- 下一篇:多变量过程控制器和用于控制催化化学反应的方法