[发明专利]一种短文本的新词发现方法和系统有效

申请号：	200710121877.6	申请日：	2007-09-17
公开（公告）号：	CN101118556A	公开（公告）日：	2008-02-06
发明（设计）人：	龚才春;黄玉兰	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京律诚同业知识产权代理有限公司	代理人：	梁挥;陈振
地址：	100080北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本新词发现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种文本信息处理领域，特别是涉及一种从短文本中发现新词的方法和系统。

背景技术

在自然语言处理或计算语言学中，新词是指以前从来没有出现过的词汇，或者是以前出现过的词汇的新用法。新词一般在词典中没有收录，因此也有不少人把新词等同于未登录词。

随着时代的进步和经济的发展，在人们日常生活的各方各面都不断涌现出大量的新词，尤其是随着互联网在中国的日益普及，大量网络新词层出不穷，日常生活中产生的新词也得以更快的传播。据报道，我国每年至少出现汉语新词或新用法1000个以上。由于移动通信在中国的普及，手机短信在中国成了男女老少都喜欢的交流方式，在手机短信中也产生了很多新词语、新说法；即时通信软件，如腾讯QQ、微软MSN、雅虎通、Google Talk、AOL的ICQ等，都拥有庞大的用户群，每时每刻都有无数即时消息从互联网发送；在线聊天室、BBS等也都有集聚了众多的眼球……有大量新词是通过手机短信、即时消息、BBS等创造并传播的，从这些短文本中发现新词也具有巨大的商业价值。

现有技术的一种利用搜索引擎的用户搜索日志来发现新词的方法，在大量用户提交的搜索关键词中统计各关键词的出现频次，如果大于某个预先设定的阈值，则作为新词输出。该技术能够比较准确、实时地发现互联网的新词，但是该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得，一般用户根本无法使用该方法。

也有学者提出了“有意义串”的概念，有意义串一般认为是具有特定语义，能够独立使用的语言单位，其很大一部分就是新词。

现有技术中通过考查字符串的稳定性、独立性和完整性三个方面来判断字符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使用频次，不是偶尔出现的字符串；有意义串的独立性是指有意义串应该使用灵活，可以在很多语用环境中出现；有意义串的完整性是指有意义串应具有完整的语义。

现有技术中，判断一个字符串是否是有意义的，一般也可以从稳定性、独立性和完整性三个方面考查。首先统计字符串在语料中的出现频次，如果字符串的出现频次大于一定阈值，一般认为字符串是稳定的；再统计字符串在语料中所有出现位置左侧和右侧不同的字符或词语的数量，如果左右两侧不同的字符或词语数量大于一定阈值，则认为字符串是独立的；然后判断字符串是否是完整的，即当且仅当不存在任何字符串B，字符串A是字符串B的子串，且字符串A的出现频次也大于预先设定的阈值，则认为字符串A是完整的。

但是，基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为有意义串或新词的方法，只适合于从大规模语料中发现新词。

当给定的语料只是一个较短的文本，如一篇文章，一个段落，甚至只有一个句子，一条手机短信或一条即时消息时，一般情况下该短文本中很难出现频次较高的字符串。而现有技术基于搜索日志的新词发现方法需要大量的搜索日志，基于字符串稳定性、独立性和完整性的新词发现方法也需要大规模的语料，这些新词发现方法几乎都不可能发现单个短文本中的新词。例如，如果用户只给定了一个句子“今年的足球宝贝真漂亮！”，假定词典中已经包含词语今年、的、足球、宝贝、真、漂亮，现有方法不能从单独的这个句子中发现“足球宝贝”是一个新词。

发明内容

本发明所要解决的技术问题在于提供一种短文本的新词发现方法和系统，能够有效地从很短的文本中发现新词。

为了解决上述问题，本发明提供了一种短文本的新词发现方法，包括以下步骤：

步骤A，获取短文本的所有连续的多个字符或词语的组合，构成候选新词集合；

步骤B，利用设置的系统词典库，过滤并确定符合预先设定规则的候选新词；

步骤C，将候选新词作为查询关键词，在搜索引擎中搜索，并由此统计返回的搜索结果数量以及搜索结果记录；

步骤D，根据搜索模块得到的精确搜索结果数和模糊搜索结果数，以及搜索结果记录，判断候选新词是否为最终新词。

所述搜索为精确搜索，或者精确搜索和模糊搜索；

所述搜索结果数量为精确搜索结果数量、模糊搜索结果数量；

所述搜索结果记录为精确搜索结果中的前多条精确搜索结果记录。

所述判断候选新词是否为最终新词，包括以下步骤中的一个或者一个以上步骤的组合：

步骤D1，如果精确搜索结果数量大于第一预定阈值，则将候选新词作为最终新词输出；