[发明专利]摘要生成装置和摘要生成方法有效
申请号: | 201010560580.1 | 申请日: | 2010-11-23 |
公开(公告)号: | CN102479196A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 乐宁;吴波;吴亚栋 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟;张浩 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 装置 方法 | ||
技术领域
本发明涉及摘要生成装置和摘要生成方法。
背景技术
为了电子书籍的检索等目的而应用从表示文章的文章数据生成表示摘要的摘要数据的技术。作为摘要生成的步骤,例如有对于构成文章的各句根据各种各样的基准计算分值而抽出分值较高的句子的步骤。
例如JP特开2003-281164号公报记载有利用单词词频作为分值计算的基准的方式。这是因为词频较高的单词被推测为文章中重要的单词。
文章由多个句子构成,句子由多个单词构成。并且,在各个单词中存在不只有一个词义而具有多个词义的单词。但是,在JP特开2003-281164号公报记载的方法中,在利用单词词频时未考虑单词的词义。
关于具有多个词义的单词,即使词频高也存在与各词义对应的词频低的情况。因此,具有多个词义的单词即使词频高也可能并非重要单词。因此,按照JP特开2003-281164号公报记载的方法,对于具有多个词义的单词不加考虑地仅基于各单词的词频计算分值,即使抽出了句子也无法生成适当的摘要。
发明内容
本发明为了解决上述课题而做出,其目的在于提供摘要生成装置和摘要生成方法,通过对具有多个词义的单词进行考虑而能够生成适当的摘要。
本发明是摘要生成装置,其特征在于,具有:存储文章数据的文章数据存储部;
词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;
句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
根据本发明,词频统计部,当文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频。并且,句子选择部,基于表示文章中的单词和副单词中通过词频统计部统计的词频最高者的数据,选择句子来生成摘要数据。因此,本发明的摘要生成装置,能够生成考虑了具有多个词义的单词的适当的摘要。
并且本发明的摘要生成装置,其特征在于,上述词频统计部具有:
存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;
基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;
基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出部;
出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
并且根据本发明,能够基于在词典数据存储部中存储的词典数据,通过搭配语检出部检出与具有多个词义的单词关联的搭配语。并且,能够通过出现数取得部对具有多个词义的单词,按照与搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在文章中出现的该副单词的数量作为词频。
并且本发明的摘要生成装置,其特征在于,上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的前一句和后一句的至少一方中,检测与该单词关联的搭配语。
并且根据本发明,搭配语检出部从包含具有多个词义的单词的句子的前一句和后一句的至少一方中检出搭配语。因此,即使包含具有多个词义的单词的句子中不存在搭配语,对于该单词,也能够按照与搭配语对应的每个词义作为不同的副单词处理,从而能够生成适当的摘要。
并且本发明的摘要生成装置,其特征在于,上述词典数据将单词与跟该单词对应的同义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文章中出现的该第二副单词的数量作为词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010560580.1/2.html,转载请声明来源钻瓜专利网。