[发明专利]内容概括系统、内容概括的方法和程序有效
申请号: | 200780039556.X | 申请日: | 2007-10-17 |
公开(公告)号: | CN101529500A | 公开(公告)日: | 2009-09-09 |
发明(设计)人: | 长友健太郎 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G10L15/10 | 分类号: | G10L15/10;G10L15/24;G10L15/04;G10L15/00;G06F17/21;G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 孙志湧;李 亚 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 概括 系统 方法 程序 | ||
技术领域
(相关申请的记述)
(相关申请)本申请要求日本专利申请2006-287562号(2006年10月23日申请)的优先权,并且所述在先申请的全部内容引用到本说明书中。
本发明涉及一种概括内容的系统、方法和程序,尤其涉及适用于从声音信号概括谈话内容的系统、方法和程序。
背景技术
专利文献1公开了现有的谈话内容概括系统的一例。如图1所示,该现有的谈话内容概括系统由声音输入单元101、声音识别单元102和文本概括单元103构成。
具有图1所示结构的现有的谈话内容概括系统进行如下动作。
首先,使用声音识别单元102把来自声音输入单元101的声音信号转换为文本。
然后,通过某个文本概括单元概括所转换的文本,并生成概括文本。在概括文本时使用非专利文献1中列举的各种公知技术。
专利文献1:日本特开2000-010578号公报
非专利文献1:奥村学、难波英嗣“テキスト自動要約に関する研究動向(有关文本自动概括的研究方向)”,自然言語処理,Vol.6,No.6,pp.1-26,1999.
发明内容
另外,上述专利文献1、非专利文献1的全部公开内容也引用到本说明书中。以下的分析是由本发明给出的。
图1所示的现有的系统具有以下问题。
第1问题点在于,在现有的文本概括技术中,对于像某种程度以上较长的谈话和人与人之间的自然对话那样具有复杂多种构造的文本,不能以足够良好的质量进行概括。
其原因是,以往的概括算法设计成为只能针对构造简单、特征明确、且比较短的文本具有足够良好的质量。因此,以足够良好的质量概括具有复杂多种构造的文本实质上是不可能的。
列举现有概括算法的两个典型示例。
第一算法是专利文献1记载的方法。该方法预先列举假设的概括源文本的所有构造,在与任一构造匹配时,使用与该构造相关联的转换规则而生成概括文本。
例如,预先登记“部门”和“人名”接近的构造,若此时的概括生成规则设为生成“部门人名”,则针对“营业部的佐藤先生”这一输入文本,可以生成“营业佐藤”的概括文本。
为了使该第一算法在实际应用中能够充分得到使用需要以下条件:
·输入文本的构造例如是按照上面所述能够写下来的简单构造,并且
·非多样化,预先已有详尽登记。
反之,针对构造复杂且多样化的输入,不具有实用性。
第二算法是非专利文献1记载的方法。即,
把文本分割成为几个部分,
根据某种标准对该各部分计算重要度。
从所有部分中重要度较低的开始依次去除,并反复实施直到成为必要的大小。
这样,可以获得只由文本整体的重要部分构成的足够小的文本(概括文本)。
根据非专利文献1,作为重要度的计算方法,可以综合使用该部分中包含的:
·重要单词的个数、
·各个单词的重要度之和、
·基于连词等的部分逻辑加权、
·标题和句首、句尾等普通文章构造的知识等。
但是,在该第二算法的方法中,由于降低到重要度这种一维标准来判定文本部分的要与不要,所以针对不一样的文本难以形成合适的概括。
例如在文本是关于两个主题的讨论时,
在关于主题1的记述量明显多于关于主题2的记述量时,在概括文本中容易保留关于主题1的记述。
像会议和窗口接待那样的人与人之间的自然对话声音,在一个对话中关于各种主题进行信息交换。
此时,与对话的所有参加人员周知的信息相关的谈话比较少,与其真正的重要度无关。
另一方面,即使是结果不怎么重要的信息,但由于一部分参加者不怎么清楚的原因,记述量增加,结果容易导致判定为重要度比较高。
因此,该第二算法对于较长的谈话和人与人之间的自然对话的概括仍不充分。
第2问题点在于,在用户准备了可以指示声音中的重要部位的模式时,若实时地提供该声音,则指定合适的部位这一行为本身就很困难。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780039556.X/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法