[发明专利]摘要生成装置和摘要生成方法有效
申请号: | 201010560580.1 | 申请日: | 2010-11-23 |
公开(公告)号: | CN102479196A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 乐宁;吴波;吴亚栋 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟;张浩 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 装置 方法 | ||
1.一种摘要生成装置,其特征在于,具有:
存储文章数据的文章数据存储部;
词频统计部,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词具有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;
句子选择部,基于上述文章数据和表示上述文章中的单词和副单词中通过上述词频统计部统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
2.根据权利要求1所述的摘要生成装置,其特征在于,
上述词频统计部具有:
存储将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据的词典数据存储部;
基于上述文章数据和上述词典数据判断上述文章中的各单词是否具有多个词义的单词判断部;
基于上述文章数据和上述词典数据从包含通过上述单词判断部判断为具有多个词义的单词的句子中检测与该单词关联的搭配语的搭配语检出部;
出现数取得部,基于上述文章数据和上述词典数据,对通过上述单词判断部判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对通过上述单词判断部判断为具有多个词义的单词,按照与通过上述搭配语检出部检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
3.根据权利要求2所述的摘要生成装置,其特征在于,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含上述判断为具有多个词义的单词的句子的上下文中,检出与该单词关联的搭配语。
4.根据权利要求2或3所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的同义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的同义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述同义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第二副单词处理,取得在上述文章中出现的该第二副单词的数量作为词频。
5.根据权利要求2~4中任一项所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的近义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的近义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述近义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第三副单词处理,取得在上述文章中出现的该第三副单词的数量作为词频。
6.根据权利要求2~5中任一项所述的摘要生成装置,其特征在于,
上述词典数据将单词与跟该单词对应的反义词建立关联,
上述搭配语检出部构成为,当未检出上述搭配语时,从包含该单词的句子中检测与上述判断为具有多个词义的单词对应的反义词关联的搭配语,
上述出现数取得部构成为,对通过上述搭配语检出部检出与上述反义词关联的搭配语的单词,按照与该搭配语对应的每个词义作为不同的第四副单词处理,取得在上述文章中出现的该第四副单词的数量作为词频。
7.一种摘要生成方法,是从文章数据生成摘要数据的摘要生成装置生成摘要数据时的摘要生成方法,其特征在于,包含以下步骤:
词频统计步骤,对由上述文章数据表示的文章中的多个单词,基于该文章数据统计各单词的词频,当上述文章中的单词有多个词义时,按照每个词义作为不同的副单词处理,统计与各副单词对应的词频;
句子选择步骤,基于上述文章数据和表示上述文章中的单词和副单词中在上述词频统计步骤中统计的词频最高者的数据,选择上述文章中的多个句子,从而生成摘要数据。
8.根据权利要求7所述的摘要生成方法,其特征在于,
上述词频统计步骤包含:
基于上述文章数据以及、将单词、与该单词对应的多个词义、与该多个词义各自对应的搭配语关联起来的词典数据,判断上述文章中的各单词是否具有多个词义的单词判断步骤;
基于上述文章数据和上述词典数据,从包含在上述单词判断步骤中判断为具有多个词义的单词的句子中检出与该单词关联的搭配语的搭配语检出步骤;
出现数取得步骤,基于上述文章数据和上述词典数据,对在上述单词判断步骤中判断为不具有多个词义的单词,取得在上述文章中出现的该单词的数量作为词频,对在上述单词判断步骤中判断为具有多个词义的单词,按照与在上述搭配语检出步骤中检出的搭配语对应的每个词义作为不同的副单词处理,取得在上述文章中出现的该副单词的数量作为词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010560580.1/1.html,转载请声明来源钻瓜专利网。