[发明专利]一种文本数据处理方法和装置有效
申请号: | 201110138284.7 | 申请日: | 2011-05-25 |
公开(公告)号: | CN102184167A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 陈志刚;何婷婷;胡国平;王智国;胡郁;刘庆峰 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据处理 方法 装置 | ||
技术领域
本发明涉及识别处理技术领域,更具体地说,涉及一种文本数据处理方法和装置。
背景技术
在自然语言文本中,如汉语文本,存在相当数量的特殊符号串如英文字符、数字字符和符号字符等。例如:通过对100万字的人民日报语料进行统计,发现有超过70%的句子中包含特殊字符串,特殊字符串的总字符数超过6%,这说明特殊字符串在自然语言文本中广泛且大量存在。
特殊符号串在句子中所起的作用十分明显,如阿拉伯数字字符的引进极大地提高了人们通过视觉通道获取数量信息的效率,同时,因其形式简短而提高了用笔运算的效率。在连续语音识别领域,语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算,最终输出是汉字串,如:当用户说了“识别效率提升了百分之七十”这样一段语音后,如果现有识别系统对其完全识别正确,则显示识别结果为“识别效率提升了百分之七十”,然而用户更习惯看到的显示方式为“识别效率提升了70%”,因为纯汉字形式的识别结果不符合人们的阅读习惯。由于特殊符号广泛存在于自然语言文本中,如:数字(5,100)、摄氏度(℃)、百分号(%)等,则也形成了许多常用的固定格式,如对于数字来说,在何种情况下使用阿拉伯数字,国家标准有相关的规定,即:凡是可以使用阿拉伯数字而且又很得体的地方,均应使用阿拉伯数字。因此,对连续语音识别领域中,将汉字文本的识别结果进一步转换为人们视觉习惯的阿拉伯数字、符号形式十分必要。
然而,现有技术在自然语言文本中,研究者主要对如何将文本中的阿拉伯数字、符号等字符转换为标准的文本做出了大量的研究,而对于汉字文本转换为数字、符号等字符形式的研究较少。然而,从汉字文本到数字字符、符号的转换,与从数字字符、符号转换为汉字文本是完全不同的一个过程,所使用的方法具有本质的区别。从汉字文本到数字字符、符号的转换中,需要从多方面考察其合理性和可读性:首先需要判断是否对数字文本进行转换,比如对出现的“三四十年代”等表述概数概念的数字就应该保持其文字形式。其次还需要根据上下文语义等信息判断是否对其转换,如对于汉字文本:“扬州的二十四桥”和“已经过去了二十四个小时”,根据阅读习惯,前者不需要转换,而后者需要转换;此外,当语音输入结果的汉字文本为“百分之二十一”时,需要考虑对数字及相关特殊符号如何处理。而在从数字字符、符号转换为汉字文本时,则不会存在此类的问题。
由此可见,对于如何实现从汉字文本到数字字符、特殊符号的转换,是一个亟需解决的课题。需要一种转换方式,使得汉字文本中的任意数字串,如数字、小数、百分数、年月日、时间、比分、电话号码、门牌号、产品型号等,转换为符合日常表达习惯、便于阅读的表达方式。
发明内容
有鉴于此,本发明实施例提供一种文本数据处理方法和装置,以实现将文本数据中与数字相关文本从汉字表述到数字字符的形式转换,提高文本数据处理的合理性。
本发明实施例提供一种文本数据处理方法,包括:
获取文本数据的初始输入结果,所述初始输入结果中与数字字符相关的数据以文本形式存在;
根据预置的匹配规则,将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。
进一步,所述方法还包括:
当所述初始输入结果中含有与数字字符相关的特殊符号,且所述特殊符号以文本形式存在时,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。
优选的,所述根据预置的匹配规则,将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式,具体包括:
对所述输入结果进行分词处理,得到分词明确的文本词串;
预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式;
如果预判断确定不需要转换,则输出第一指示信息;根据所述第一指示信息,直接将所述文本词串中含有的与数字字符相应的数据文本输出;
如果预判断确定需要转换,则输出第二指示信息;根据所述第二指示信息合并相邻的与数字字符相应的文本词串,对合并后的文本词串进行数字类型标注;将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配,当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式,则根据预置的与所述数字字符类型相匹配的语料训练模型,将所述数字由文本形式转换为相应的符号形式。
优选的,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110138284.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:根据健康性实现和帮助改善营养的系统
- 下一篇:用于键盘乐器的音符指示器