[发明专利]文本数据结构、文本数据处理方法无效
申请号: | 200580038656.1 | 申请日: | 2005-09-08 |
公开(公告)号: | CN101057234A | 公开(公告)日: | 2007-10-17 |
发明(设计)人: | 本田正 | 申请(专利权)人: | 先进设计株式会社 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/21 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 黄纶伟 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据结构 数据处理 方法 | ||
技术领域
本发明涉及至少包含表意文字的语言的文本数据结构、用于生成该数据结构的文本数据的文本数据处理方法、文本数据处理程序以及记录了文本数据处理程序的记录介质。
背景技术
以往,在包含汉字等表意文字的文本数据中,在输入时,利用罗马字或平假名等表音文字,输入汉字的训读或发音,转换成汉字。
在将包含这些转换后的表意文字的文本数据机器翻译成其它语言等的情况下,翻译设备不能理解这些表意文字,因此不能准确地判断这些显示文字的断句在哪里,在转换包含多个这些表意文字的单词的句子、例如“合衆国最高裁判所近道”的句子时,根据其断句,存在多种含意的译文,难以准确把握这些显示文字的断句、实施准确的翻译,为了准确地把握这些断句,需要用于选出各种断句方式的处理或程序,其结果,存在翻译程序的容量增大、且翻译费时等问题。
发明内容
本发明是着眼于这种问题而提出的,其目的在于,提供一种在将包含表意文字的句子转换成其它语言的情况下,能够准确地把握翻译文的断句(文节)以减少翻译程序的容量和处理时间的文本数据结构、文本数据处理方法、文本数据处理程序以及记录了文本数据处理程序的记录介质。
为了解决上述课题,本发明的权利要求1所述的文本数据结构,其由文字码数据排列而成,所述文字码数据可确定至少包含表意文字的各文字的文字种类,所述文本数据结构的特征在于,其根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息,一并包括可确定转换后的各文节中所包含的文字码数据的文节确定数据和该文字码数据,所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。
根据该特征,利用文本数据中所包含的文节确定数据,确定各文节中包含的文字,从而能够准确地把握基于文节的断句,所以在将基于具有这些文本数据结构的文本数据的包含表意文字的句子转换成其它语言时,能够减少翻译程序的容量和处理时间。
本发明的权利要求2所述的文本数据结构,其特征在于,在权利要求1所述的文本数据结构中,将转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据与转换后的文字串的文节对应起来包含。
根据该特征,能够准确地确定注音假名,可以使这些注音假名有助于翻译。
本发明的权利要求3所述的文本数据结构,其特征在于,在权利要求1或2所述的文本数据结构中,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来包含。
根据该特征,确定各文节中所包含的文字串的词类,根据该确定的词类,能够更准确地实施翻译。
本发明的权利要求4所述的文本数据处理方法,其特征在于,从转换处理程序取得作为转换成该表意文字的转换单位的文节信息,该转换处理程序将所输入的表音文字串转换成包含表意文字的文字串,该文本数据处理方法根据该取得的文节信息,将可确定转换后的文字串中的各文节中所包含的文字码数据的文节确定数据插入到转换后的文字串的文本数据中。
根据该特征,利用文本数据中所包含的文节确定数据,确定各文节中包含的文字,从而能够准确地把握基于文节的断句,所以在将基于包含这些文节确定数据的文本数据的句子转换成其它语言时,能够减少翻译程序的容量和处理时间。
本发明的权利要求5所述的文本数据处理方法,其特征在于,在权利要求4所述的文本数据处理方法中,将从所述转换处理程序取得的、转换成所述表意文字的转换元的表音文字的文字码数据作为转换后的文字串的注音假名数据与转换后的文字串的文节对应起来,插入到该转换后的文字串的文本数据中。
根据该特征,能够准确地确定注音假名,可以使这些注音假名有助于翻译。
本发明的权利要求6所述的文本数据处理方法,其特征在于,在权利要求4或5所述的文本数据处理方法中,将从所述转换处理程序取得的、可确定各文节中所包含的文字串的词类的词类数据与该文节对应起来,插入到所述文本数据中。
根据该特征,确定各文节中所包含的文字串的词类,根据该确定的词类,能够更准确地实施翻译。
本发明的权利要求7所述的文本数据处理程序,其特征在于,所述文本数据处理程序包括以下步骤:
文节信息取得步骤,从转换处理程序取得作为转换成表意文字的转换单位的文节信息,该转换处理程序将所输入的表音文字串转换成包含表意文字的文字串;以及
文节确定数据插入步骤,根据该取得的文节信息,将可确定转换后的文字串中的各文节中所包含的文字码数据的文节确定数据插入到转换后的文字串的文本数据中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于先进设计株式会社,未经先进设计株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580038656.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种1μV分辨率的电压测量装置
- 下一篇:内循环式真空甘油蒸发泵