[发明专利]从文档中提取正文片段的方法及装置无效
申请号: | 200810102182.8 | 申请日: | 2008-03-18 |
公开(公告)号: | CN101539923A | 公开(公告)日: | 2009-09-23 |
发明(设计)人: | 刘明智;王文俊;姜全 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 提取 正文 片段 方法 装置 | ||
技术领域
本发明涉及搜索引擎技术,特别是涉及从文档中提取正文片段的方法及装置。
背景技术
从文档中自动提取出的一个正文片段,如果能够概括全文内容,则称为该文本的摘要,而自动摘要是自动文本摘要的简称。在搜索引擎技术中,自动摘要是搜索引擎返回给用户查询结果的重要组成部分,用户通过浏览摘要就能够了解文档中与查询词相关的部分,进而判断是否值得详细阅读整篇文档。对于同样的一篇文档,查询词不同,搜索引擎返回的自动摘要也不同。为描述方便,以下内容将以自动摘要为例来说明正文片段的提取,并将自动摘要简称为摘要。
目前,从搜索结果网页中提取摘要的方法是:对网页中的文本进行查询关键词的匹配,在得到关键词在网页中的匹配信息之后,可以通过寻找最长匹配的方法选择一段摘要文本。其中,所述最长匹配是指该摘要能够最大限度地包含与关键词相关的信息,可以通过匹配次数、匹配程度等因素来衡量。针对一段文本,把其中匹配上的关键词长度之和作为匹配长度,而最长匹配就是在各个可能作为摘要结果的片段中匹配长度最长的一段文本。
上述只考虑匹配长度的方法虽然实现过程简单易用,但是在匹配过程中丢掉了很多与关键词密切相关的重要信息,使得提取出的摘要不是最优结果。例如,对于有两个关键词的查询,第一个词在某一段匹配了很多次,而另一段同时匹配了两个词,上述方法就会因为前者的匹配长度而放弃了最优的段落,而实质上后一段落才是对整篇文档概括性最强的摘要结果。
目前,还有其他的一些摘要提取方法,但这些方法都不能获得准确的摘要,而摘要在搜索引擎的检索结果中起着重要作用,因此,需要提供一种能够更准确地提取出检索网页的摘要的方法。
发明内容
本发明所要解决的技术问题是提供从文档中提取正文片段的方法及装置,以解决目前的摘要提取方法提取出的摘要不能准确概括整篇文档的问题。
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案:
从文档中提取正文片段的方法,包括:
对文本中的句子评定级别;以句子为单位截取预置长度的文本片段,并根据关键词匹配程度和句子级别进行权重计算;
将权重最高的文本片段作为要提取的正文片段。
其中,所述权重计算的步骤包括:根据关键词匹配程度和句子级别,对文本片段分别进行加分和减分的计算,然后求和得到总分数。
其中,所述加分的计算步骤包括:对句子级别加分,并对不同句子级别设置不同分数。
其中,所述加分的计算步骤包括:对关键词命中位置位于文本片段前部的加分。
其中,所述加分的计算步骤包括:当文本片段第一次命中关键词时加分,和/或命中完整关键词时加分。
其中,所述减分的计算步骤包括:对关键词出现频繁的文本片段减分。
其中,所述减分的计算步骤包括:对语义起伏的文本片段减分,所述语义起伏情况根据句子级别判断。
其中,所述减分的计算步骤包括:对显示长度偏离目标长度的文本片段减分。
其中,所述对句子评定级别的步骤包括:根据分隔符信息,以及在分句过程中获得的句子属性,对句子评定级别。
其中,所述关键词匹配的步骤包括:关键词被分割为短语和词语,短语由词语组成;进行分层级匹配。
从文档中提取正文片段的装置,包括:
句子评级单元,用于对文本中的句子评定级别;
正文片段提取单元,用于以句子为单位截取预置长度的文本片段,并根据关键词匹配程度和句子级别进行权重计算;将权重最高的文本片段作为要提取的正文片段。
其中,所述正文片段提取单元在进行权重计算时,是根据关键词匹配程度和句子级别,通过对文本片段分别进行加分和减分的计算,然后求和得到总分数。
其中,所述加分计算包括:对句子级别加分,并对不同句子级别设置不同分数;和/或对关键词命中位置位于文本片段前部的加分;和/或当文本片段第一次命中关键词时加分,和/或命中完整关键词时加分。
其中,所述减分计算包括:对关键词出现频繁的文本片段减分;和/或对语义起伏的文本片段减分,所述语义起伏情况根据句子级别判断;和/或对显示长度偏离目标长度的文本片段减分。
其中,所述句子评级单元根据分隔符信息,以及在分句过程中获得的句子属性,对句子评定级别。
所述装置还包括:关键词匹配单元,用于进行分层级的关键词匹配;其中,所述关键词被分割为短语和词语,短语由词语组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810102182.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种航班动态信息数据整合器及处理方法
- 下一篇:钢管整径校直运动控制系统