[发明专利]辞典产生装置、方法、及程序有效
申请号: | 201280030052.2 | 申请日: | 2012-09-03 |
公开(公告)号: | CN103608805A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 萩原正人 | 申请(专利权)人: | 乐天株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 章蕾 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辞典 产生 装置 方法 程序 | ||
1.一种辞典产生装置,其包括:
模型产生部,使用预先准备的语料库及单词群来产生单词分割模型,且对所述语料库中所含的各文本赋予表示单词界限的界限信息;
解析部,对所收集的文本的集合执行编入有所述单词分割模型的单词分割,并对各文本赋予所述界限信息;
选择部,从通过所述解析部而被赋予所述界限信息的文本中选择所要登录到辞典的单词;以及
登录部,将由所述选择部选择的单词登录到所述辞典。
2.根据权利要求1所述的辞典产生装置,其中所述选择部根据从由所述解析部赋予的所述界限信息算出的各单词的出现频度,选择所要登录到所述辞典的单词。
3.根据权利要求2所述的辞典产生装置,其中所述选择部选择所述出现频度为规定阈值以上的单词。
4.根据权利要求3所述的辞典产生装置,其中所述选择部将所述出现频度为所述阈值以上的单词提取作为登录候补,从所述出现频度高的单词起依次从该登录候补中选择规定数量的单词;
所述登录部将由所述选择部选择的单词追加到记录着所述单词群的辞典。
5.根据权利要求3所述的辞典产生装置,其中所述选择部将所述出现频度为所述阈值以上的单词提取作为登录候补,从所述出现频度高的单词起依次从该登录候补中选择规定数量的单词;
所述登录部将由所述选择部选择的单词登录到与记录着所述单词群的辞典不同的辞典。
6.根据权利要求3所述的辞典产生装置,其中所述登录部将由所述选择部选择的单词登录到与记录着所述单词群的辞典不同的辞典。
7.根据权利要求3所述的辞典产生装置,其中所述选择部将所述出现频度为所述阈值以上的单词提取作为登录候补,根据所述出现频度的高低而将该登录候补的单词群组化;
所述登录部将由所述选择部产生的多个群组个别地登录到与记录着所述单词群的辞典不同的多个辞典。
8.根据权利要求3所述的辞典产生装置,其中将表示该文本的领域的信息与所述收集到的各文本建立关联;
所述登录部根据含有该单词的文本的领域,将由所述选择部选择的单词个别地登录到针对所述每个领域而准备的辞典。
9.根据权利要求2至8中任一项所述的辞典产生装置,其中所述界限信息包含表示字符间位置上不存在所述界限的第1信息、表示字符间位置上存在所述界限的第2信息、及表示字符间位置上概率性存在所述界限的第3信息;
根据所述第1、第2及第3信息算出各单词的出现频度。
10.根据权利要求9所述的辞典产生装置,其中所述解析部包括第1二值分类器及第2二值分类器;
所述第1二值分类器对于各字符间位置,判断是分配所述第1信息还是分配所述第1信息以外的信息;
所述第2二值分类器对于由所述第1二值分类器判断为分配所述第1信息以外的信息的字符间位置,判断是分配所述第2信息还是分配所述第3信息。
11.根据权利要求1至10中任一项所述的辞典产生装置,其中将所述收集到的文本集合分割成多个群组;
所述解析部、所述选择部、及所述登录部基于所述多个群组中的一个执行处理后,所述模型产生部使用所述语料库、所述单词群及由所述登录部登录的单词来产生所述单词分割模型,接着,所述解析部、所述选择部、及所述登录部基于所述多个群组中的另一个执行处理。
12.一种辞典产生方法,其由辞典产生装置执行,且包括:
模型产生步骤,使用预先准备的语料库及单词群来产生单词分割模型,且对所述语料库中所含的各文本赋予表示单词界限的界限信息;
解析步骤,对所收集的文本的集合执行编入有所述单词分割模型的单词分割,并对各文本赋予所述界限信息;
选择步骤,从所述解析步骤中被赋予所述界限信息的文本中选择所要登录到辞典的单词;以及
登录步骤,将所述选择步骤中选择的单词登录到所述辞典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐天株式会社,未经乐天株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280030052.2/1.html,转载请声明来源钻瓜专利网。