[发明专利]一种保持语义完整性的引文自动提取方法和装置有效
申请号: | 201410301560.0 | 申请日: | 2014-06-27 |
公开(公告)号: | CN104050158B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 吴涛军 | 申请(专利权)人: | 吴涛军 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 江阴市永兴专利事务所(普通合伙)32240 | 代理人: | 达晓玲,施光亚 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 保持 语义 完整性 引文 自动 提取 方法 装置 | ||
技术领域
本申请涉及文本分析和提取技术,更具体地,涉及一种保持语义完整性的引文自动提取方法和装置。
背景技术
在电子结构化文档中,以由用户手工选择或者基于预定规则(如匹配规则等)自动选择的一些关键词、短语、句子等阅读焦点为中心,提取引文文本,是在很多应用场景中非常需要的功能。例如,用户在阅读网页等文档过程中,可以利用标记工具等对自己感兴趣的阅读焦点进行选择,以便在另外的阅读中参考;当用户希望通过微博等社交网络分享这些阅读焦点的时候,仅依靠被标记的关键词、短语和句子不足以让读者还原阅读焦点所在的上下文场景,无法理解阅读焦点的用意,因此就需要提取阅读焦点的上下文形成一段完整的引文。类似的情况还有当用户希望基于对阅读焦点的标记保存读书摘录时,需要提取形成引文等等。可见,对于很多基于电子结构化文档的产品和应用来说,引文提取都是实现其功能必不可少的基础技术。
例如,公开号为CN102955820A的中国专利申请文献公开了一种外语词汇积累的系统及其方法,其中使用者可以一边阅读外语电子读物一边对其中的词汇进行标记;而系统会将包含了词汇标记信息的上下文段落提交和保存至服务后台子系统。然而,该专利文献公开的技术方案是以标记所在的上下文段落作为引文加以提取的,而标记所在的上下文段落可能会比较长。在大多数的应用环境下,引文的文本长度是有限制的,以段落为单位提取引文就有可能造成引文长度超过所述限制的情况,显然该专利文献的技术不能够广泛适用于限制引文长度的应用环境。而且,如果提取的引文段落过长,会使原本作为阅读焦点的标记在引文中的位置不够突出,影响阅读效果。
公开号为CN101192231B的中国专利文献公开了在数据处理系统中对资源的特定部分设置书签的方法,在该方法中,响应对资源的当前屏幕设置书签的请求,对资源的当前屏幕的实际文本采集屏幕上下文信息,并且存储所述资源的地址信息和屏幕上下文信息作为用于返回所述资源特定部分的书签。该专利文献的技术方案是以屏幕为单位进行上下文提取的,同样有可能存在引文文本过长而不适于某些应用环境的问题。而且,以屏幕为单位的上下文提取相对于以段落为单位的提取来说,更不容易保证引文在语义上的完整性,因为很有可能位于屏幕最上方一行或最下方一行的文字片断并不是完整的一个整句,而只是整句的一部分,该整句的另一部分则位于屏幕以外。这样获得的引文中就会存在不完整的语句甚至是不完整的词语,严重影响引文的阅读效果。
现有技术中还包括提取被标注的对象及当前网页中紧邻被标注的对象之前和之后的上下方网页元素的内容以形成引文的技术方案,如公开号为CN101866342的中国专利文献等。显然,以网页元素为单位的提取也存在引文长度可能过长或者引文语义不完整的问题。
现有的引文提取方法和装置还包括为了适应对引文长度的要求而单纯依据字符数来进行截取的方案,例如以阅读焦点为中心,向前和向后从文本中各提取出几十个字符,即形成引文。这种方法所具有的明显缺陷是所生成的引文往往不具有语义完整性,常常出现将某一句话的一半内容纳入引文而另一半内容不纳入引文,甚至将一个词语截断的情况,令读者阅读后不明所以。而且,有些情况下,这种破坏完整性截断的引文会影响用户对其进行使用,例如,如果文本中包括电子邮件地址、URL网页地址、电话号码等信息,而引文将这些信息截断,那么所提供的引文将不具有任何实际价值。
可见,现有的引文提取技术均不能在使引文长度保持在门限值以内的前提下保持引文语义完整,避免切断完整语句、词汇和电子邮件地址等整体性字符串,其引文提取的效果不能满足人们的需要。
发明内容
针对现有技术的上述状况及缺陷,本发明提供了一种引文自动提取方法和装置。本发明能够以文本中作为阅读焦点的字符或字符串为中心自动提取上下文,所提取的引文长度处于预定的长度范围以内,并且保持所提取的引文具有语义完整性,这样能够从文本中抽取形成以字符或字符串作为阅读焦点并且长度合适、意思完整的一段语义场景,方便用户还原阅读焦点在上下文中的正确含义。
根据本发明所述的引文自动提取方法,其特征在于,包括:
焦点设定步骤,从文本中选择作为阅读焦点的字符或字符串;
上下文提取步骤,通过以完整语义单元为单位进行的文本扩展和/或截取,提取以所述阅读焦点为中心的上下文,从而获得文本长度处于预定长度区间内的引文文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴涛军,未经吴涛军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410301560.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发光元件
- 下一篇:用于更高效地使用存储器至CPU带宽的技术