[发明专利]利用图像处理技术及语义向量空间的文本语义处理方法和系统有效
申请号: | 201410253847.0 | 申请日: | 2014-06-10 |
公开(公告)号: | CN104035992B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 王晓平;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 图像 处理 技术 语义 向量 空间 文本 方法 系统 | ||
技术领域
本发明属于文本语义信息处理技术领域,具体涉及一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
背景技术
随着计算机技术及网络的发展,如今已进入信息爆炸时代——各种海量的数据以电子文本的形式呈现出来,在这种情况下,能够快速、准确地从中抽取出用户所关心的信息这一需求日益迫切,文本信息处理技术正是在这种背景下应运而生的,而文本的语义处理则是重中之重,它使得我们从语言处理迈向了语言理解。文本语义处理技术在很多领域都很有应用价值,如文本语义分段、自动文本摘要抽取、电子阅读语义导航等。
然而,目前的文本语义处理技术仍有一些局限性,以文本语义分割技术为例,基本上上是从基于词频统计的角度出发,通过计算相邻文本块内重复出现词语的词频统计向量的相似度来实现语义分割,如经典的TextTiling算法、Dotplotting算法,但它们都没有考虑到词语蕴含的语义空间,不能应对词语变体或者是同义词、近义词的影响,因而鲁棒性不强;在此之后的一些算法如ESA(Explicit semantic analysis)算法虽然通过引入语义向量空间增强了鲁棒性,但由于其语义空间维度过高、计算代价巨大,无法满足实时应用的需求;还有如TopicTilling算法,虽然通过加入词与主题间的联系改进了分割性能,但其需要复杂的主题模型介入,等等。
发明内容
本发明针对文本语义信息处理技术背景的弱点提出了一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而不仅得以引入图像处理领域中的各种技术和方法来对文本进行灵活、直观地处理,而且也不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,能够满足实时应用需求。
本发明面向文本语义处理中的几个应用场景分别提出了针对性的技术。具体地:面向文本分割需求,使用图像边缘检测技术实现对语义转折句的提取;面向电子文本中的语义不相关语句(如广告植入语句),采用图像处理中的噪声检测方法进行提取;面向电子阅读中的语义导航需求,采用图像处理中的区域生长技术实现对用户感兴趣内容的语义范围跟踪;面向信息快速推送场合的语义切分需求,采用图像分割方法实现对不同语义场景的分割。
本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理方法,具体步骤分为:文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示;其中:
1.文本输入及预处理:是对于输入的文本,首先进行语句分割处理,从而得到有序的语句序列,然后对每一句都进行停用词去除操作,目的是去除助词等干扰、保留下真正有语义的词语;
2.语义向量构建:基于大数据资源进行训练,构建词与语义空间的映射,从而为语义的比较提供可靠依据;
3.语义信息处理:包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个分步骤,核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能;
4.语义处理结果展示:将处理结果进行输出展示,并提交给用户。
各步骤的具体内容如下:
(1)文本输入及预处理,具体步骤如下:
文本输入及预处理包含两个分步骤:文本输入、文本预处理:
(1.1)文本输入,是将用户提交的待处理文本输入系统;
(1.2)文本预处理,具体步骤为:
(1.2.1) 对于输入的文本,首先按照语句分割标志符号(如句号、感叹号等)进行语句分割处理,从而得到有序的语句序列;
(1.2.2) 对序列中的每一句,进行停用词去除操作,目的是将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量。
(2)语义向量构建,具体步骤如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算,如Word2Vec方法、ESA(Explicit semantic analysis)特征、LSA(Latent semantic analysis)特征、共现词频率特征等等,由于本发明的目的是面向能满足实时应用需求的轻量级的方法,因此,优选地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同时参见文献[1,2,3])。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410253847.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型高效水处理系统
- 下一篇:微型手磨
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序