[发明专利]词素分析装置和词素分析方法在审
申请号: | 201810686874.5 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109213992A | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 森田一;岩仓友哉 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 黄纶伟;金玲 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符串 词素分析 词素分析结果 词素分析装置 匹配 点阵 分析对象 句子 文本 字符串输出 辞典生成 分析 不一致 存储部 共通 存储 输出 | ||
本发明提供词素分析装置和词素分析方法,用于提高词素分析的分析精度。词素分析装置具有:存储部,其存储匹配辞典,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果;第1分析部,其针对分析对象文本中的与包含于所述匹配辞典中的所述字符串一致的字符串输出所述第1词素分析结果;以及第2分析部,其针对所述分析对象文本中的与包含在所述匹配辞典中的所述字符串不一致的剩余的字符串,使用所述词素分析辞典生成包含多个词素分析结果的候选的点阵,并使用所述点阵进行针对所述剩余的字符串的词素分析,输出针对所述剩余的字符串的第2词素分析结果。
技术领域
本发明涉及词素分析装置和词素分析方法。
背景技术
近些年来,因特网上的信息飞跃性地增多,使用大数据的商务增加,因此希望高效地处理大数据。在如日语、中文或韩文的文档那样,是单词与单词间未被空格等的分隔文字分隔开来的表述的文档的情况下,为了计算单词的出现频度而进行词素分析。
词素分析是将文本分割为词素,对各词素赋予词性信息的处理。通过词素分析而得到的词素有时被作为单词进行处理。通过进行这种词素分析,确定文档中的单词间的关系和单词的词性,能够将文档中的文本分割为单词。然而,词素分析的处理负载较大,因此处理大量的文本需要较长的时间。
在词素分析中,从辞典中提取出与分析对象的字符串的表述部分一致的所有单词,进行使用作为列举出单词的候选(分析候选)的图表结构的点阵(lattice)的分析。
图1是表示点阵的示例的图。
在图1中,示出构建了针对作为分析对象的输入文=“被送来”的点阵的情况。在词素分析中,对所构建的点阵考虑上下文(前后的词素),确定正确的词素串。由此,“被送来”的词素分析结果成为“送ら(动词·未然形)|れて(接尾词)|きた(接尾词)”。点阵的构建的计算成本较大,比较耗费时间。
在词素分析中,已知不进行计算成本较大的点阵的构建,而通过使用图形匹配来实现高速化的方法(例如,参照非专利文献1)。已知将句子高速分割为2个以上的单词的单词分割装置(例如,参照专利文献1)。还已知得到精度较高的单词分割用辞典的辞典登记装置(例如,参照专利文献2)。
在先技术文献
专利文献
专利文献1:日本特开2014-106707号公报
专利文献2:日本特开2014-120007号公报
非专利文献
非专利文献1:Manabu Sassano,“Deterministic Word Segmentation UsingMaximum Matching with Fully Lexicalized Rules”,Proceedings of the 14thConference of the European Chapter of the Association for ComputationalLinguistics,pages 79–83,Gothenburg,Sweden,April 26-30 2014
然而,在非专利文献1所述的词素分析方法中,虽然能够通过图形匹配来高速地进行词素分析,然而存在有时输出错误的分析结果,分析精度较低的问题。
发明内容
本发明的一个方面的目的在于,提高词素分析的分析精度。
实施方式的词素分析程序使计算机执行如下的处理,该计算机具有存储匹配辞典的存储部,该匹配辞典包含词素分析辞典、分别包含在多个句子中的字符串、以及分别针对所述多个句子而共通得到的所述字符串的第1词素分析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810686874.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:消息处理方法、系统、云平台及存储介质
- 下一篇:信息匹配方法及装置