[发明专利]一种获取新词的方法、系统及设备无效
申请号: | 200710122187.2 | 申请日: | 2007-09-21 |
公开(公告)号: | CN101119334A | 公开(公告)日: | 2008-02-06 |
发明(设计)人: | 李伟杰 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06F17/20 |
代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 王黎延 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 新词 方法 系统 设备 | ||
技术领域
本发明涉及信息提取技术,特别是指一种利用即时通信(IM)系统获取新词的方法、系统及实现新词获取的即时通信客户端和服务器。
背景技术
随着信息化、电子化和网络化的迅猛发展和普及,人们每天会从各种通信网络、互联网络接触或获取到巨大的信息量;随着信息的大量传播以及人们交流内容的不断扩展,新的词汇层出不穷并被广泛使用。由于词汇是人们沟通的基础,不断增加和更新词库是非常必要的。目前,新词获取在输入法和网络搜索等领域应用较多,对于输入法而言,需要不断更新自身的数据库,以保证为用户提供更多的词汇、更方便的输入;对于搜索引擎而言,需要随时更新和扩展搜索关键词,以提高搜索速度。
具体来说,在输入法方面,现在常用的中文输入法包括键盘输入和非键盘输入两类,所谓键盘输入是指利用键盘上的26个英文字母,按照一定的编码规则输入汉字,如:拼音输入、部首输入、五笔输入等等;所谓非键盘输入是指利用其他形式输入汉字,如手写输入、语音输入、光学字符识别(OCR)技术输入等等。但是,这两类输入方式对获取新词都存在不同程度的问题:键盘输入法,是依据用户的输入频率和次数等特征获取新词,一般的方式是:先采集输入信息并将输入的信息存储,然后对存储的信息按预置规则进行筛选和统计,这样,虽然能准确的获取新词,但所获取的新词仅来源于某个用户、且仅存储在该用户当前使用的终端上,并不能面向更多用户,即使很多新词是大家都常用的,不同用户也需要各自通过频繁输入分别获取;而且,对于同一用户,由于新词仅存储在当前使用的终端上,那么,更换终端后又需要重新获取,比如:在办公室的终端上已得到很多常用的新词,但在自家的终端上使用所需的新词时又需要重新获取。非键盘输入法,很明显,这类输入本身是靠设备或软件对笔迹、声音、光学字符的识别完成汉字的输入,并不能保证较高的识别准确度,那么,在这种识别程度上获取新词,很可能得到错误的词汇或并非所需的词汇,因此很难达到获取新词的真正目的。在网络搜索方面,新词的获取是将采集到的所有网络用户输入的关键词,汇集到网络服务器上存储,之后再进行统计和提取。但是,由于新词的不断出现,且分散在不同的语料库中,很难及时、有效地识别与更新;而且,现有技术通常会采用人工参与收集、整理和辨别新词的方式,再将得到的新词加入已有词库中,如此,不仅耗费时间、成本,且工作效率很低。
可以看出,现有技术获取新词的途径相对较少,主要是对用户输入和查询关键词进行收集和统计,进而获取到新词,目前并未将其它信息来源作为新词的获取源。
发明内容
有鉴于此,本发明的主要目的在于提供一种获取新词的方法,能基于即时通信的词源简单、有效、实时地自动获取新词,并能使所获取的新词适用范围更广。
本发明的另一目的在于提供一种获取新词的系统及设备,能支持基于即时通信的新词自动获取方式,实现简单方便、灵活有效。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提出了一种获取新词的方法,包括:
A、从聊天数据中获取备选字符串;
B、根据预置规则对所得到的备选字符串进行筛选,将经过筛选后的词作为新词。
步骤A中,所述的获取为:获取本端输入的聊天数据;或为获取接收到的对端的聊天数据,其中,所述对端为一个或一个以上。
所述聊天数据为本端输入的聊天数据;则步骤A具体为:
IM客户端软件接收当前用户通过输入法输入的数据信息,在将输入数据作为聊天记录显示于即时通信界面的同时,将当前的输入信息作为备选字符串;
或者,所述聊天数据为来自对端的聊天数据;则步骤A具体为:
IM客户端软件接收对端发来的数据信息,在将接收的数据信息作为聊天记录显示于即时通信界面的同时,将收到的数据信息作为备选字符串。
步骤A与步骤B之间进一步包括:将备选字符串划分为一个或一个以上的词;则步骤B根据预置规则对所得到的词进行筛选。
步骤B所述筛选后进一步包括:统计并判断经过筛选的词在指定位置出现的次数是否达到设定阈值,如果达到,则将相应词作为新词;否则不作为新词。其中,所述指定位置为互联网数据,或为来自本端或对端的聊天记录。
上述方案中,该方法进一步包括:将获取的新词并入各种输入法的数据库。
上述方案中,所述步骤A和步骤B由IM客户端完成,该方法进一步包括:IM客户端将获取的新词通过即时通信系统发送给对端用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710122187.2/2.html,转载请声明来源钻瓜专利网。