[发明专利]辞典产生装置、方法、及程序有效
申请号: | 201280030052.2 | 申请日: | 2012-09-03 |
公开(公告)号: | CN103608805A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 萩原正人 | 申请(专利权)人: | 乐天株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辞典 产生 装置 方法 程序 | ||
技术领域
本发明的一形态涉及一种用来产生单词辞典的装置、方法、程序及计算机可读取记录媒体。
背景技术
一直以来,已知有通过使用单词辞典分割文章而获得多个单词的技术(单词分割)。与其相关地,在下述专利文献1中记载有一种技术:从单词辞典中检索与输入文本的部分字符串对照的单词,并作为单词候补产生,从不与该单词辞典对照的输入文本的部分字符串中选择可能为未知语的字符串作为未知语候补,使用未知语模型推测未知语候补的词类区分单词出现概率,使用动态计划法求出同时概率最大的单词串。
背景技术文献
专利文献
专利文献1:日本专利特开2001-051996号公报
发明内容
[发明所要解决的问题]
为了正确分割文本,较理想的是为了使词汇知识充实而在辞典内准备大量单词。但通过人工构筑大规模辞典并不容易。因此,要求容易构筑大规模单词辞典。
[解决问题的技术手段]
本发明的一形态的辞典产生装置包括:模型产生部,使用预先准备的语料库及单词群来产生单词分割模型,且对语料库中所含的各文本赋予表示单词界限的界限信息;解析部,对所收集的文本的集合执行编入有单词分割模型的单词分割,并对各文本赋予界限信息;选择部,从通过解析部而被赋予界限信息的文本中选择所要登录到辞典的单词;以及登录部,将由选择部选择的单词登录到辞典。
本发明的一形态的辞典产生方法是由辞典产生装置执行,且包括:模型产生步骤,使用预先准备的语料库及单词群来产生单词分割模型,且对语料库中所含的各文本赋予表示单词界限的界限信息;解析步骤,对所收集的文本的集合执行编入有单词分割模型的单词分割,并对各文本赋予界限信息;选择步骤,从在解析步骤中被赋予界限信息的文本中选择所要登录到辞典的单词;及登录步骤,将在选择步骤中选择的单词登录到辞典。
本发明的一形态的辞典产生程序使计算机执行:模型产生部,使用预先准备的语料库及单词群来产生单词分割模型,且对语料库中所含的各文本赋予表示单词界限的界限信息;解析部,对所收集的文本的集合执行编入有单词分割模型的单词分割,并对各文本赋予界限信息;选择部,从通过解析部而被赋予界限信息的文本中选择所要登录到辞典的单词;及登录部,将由选择部选择的单词登录到辞典。
本发明的一形态的计算机可读取记录媒体存储辞典产生程序,该辞典产生程序使计算机执行:模型产生部,使用预先准备的语料库及单词群来产生单词分割模型,且对语料库中所含的各文本赋予表示单词界限的界限信息;解析部,对所收集的文本的集合执行编入有单词分割模型的单词分割,并对各文本赋予界限信息;选择部,从通过解析部而被赋予界限信息的文本中选择所要登录到辞典的单词;及登录部,将由选择部选择的单词登录到辞典。
根据这种形态,使用被赋予界限信息的语料库与单词群来产生单词分割模型,将编入有该模型的单词分割应用于文本集合。而且,从通过该应用被赋予界限信息的文本集合中选择单词,并登录到辞典。像这样,通过使用附界限信息的语料库的解析对文本集合也赋予界限信息之后,登录从该文本集合提取的单词,由此,可容易地构筑大规模的单词辞典。
另一形态的辞典产生装置中,也可以是,选择部根据从由解析部赋予的界限信息算出的各单词的出现频度,选择所要登录到辞典的单词。通过考虑像这样算出的出现频度,可提高辞典的精度。
又一形态的辞典产生装置中,也可以是,选择部选择出现频度为规定阈值以上的单词。通过仅将出现一定次数以上的单词登录到辞典,可提高辞典的精度。
又一形态的辞典产生装置中,也可以是,选择部将出现频度为阈值以上的单词提取作为登录候补,从出现频度高的单词起依次从该登录候补中选择规定数量的单词,登录部将由选择部选择的单词追加到记录着单词群的辞典。通过仅将出现频度相对较高的单词登录到辞典,可提高辞典的精度。另外,通过对预先准备的单词群的辞典追加单词,可使辞典的构成简单。
又一形态的辞典产生装置中,也可以是,选择部将出现频度为阈值以上的单词提取作为登录候补,从出现频度高的单词起依次从该登录候补中选择规定数量的单词,登录部将由选择部选择的单词登录到与记录着单词群的辞典不同的辞典。通过仅将出现频度相对较高的单词登录到辞典,可提高辞典的精度。另外,通过对与预先准备的单词群的辞典(现有辞典)不同的辞典追加单词,可产生与现有辞典不同特性的辞典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐天株式会社,未经乐天株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280030052.2/2.html,转载请声明来源钻瓜专利网。