[发明专利]用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序在审
申请号: | 201380050748.6 | 申请日: | 2013-09-26 |
公开(公告)号: | CN104685493A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 大西贵士;土田正明;石川开 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 韩峰;孙志湧 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 监视 文本 信息 字典 创建 装置 方法 程序 | ||
技术领域
本发明涉及用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序。具体而言,本发明涉及这样的用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序,通过其使得即使对未知文本也能生成高精度地监视文本信息的字典。
背景技术
为监视互联网上的谣言等等,检测出现在大量文本中的作为监视对象的信息内容的文本信息监视技术变得很重要。在本发明中采用的文本信息监视系统在字典的基础上,监视文本信息。换句话说,作为文本信息监视技术,使用基于字典的技术,其中,在用于监视文本信息的字典中保存检测条件,并且检测输入文档中的表述是否与用于监视文本信息的字典中的条件匹配。
在基于字典的技术中,通过使用高精度字典,能高精度地监视文本信息。由此,使用高精度字典很重要。
在基于字典的文本信息监视系统中生成具有内省的字典费时、易于导致遗漏,因此很困难。由此,期望一种这样的技术,其中,提供采集包括作为监视对象的信息内容的文档的正例集合、以及采集不包括针对监视对象的信息内容的文档的反例集合,来自动地从这些集合提取登记为检测条件的表述。这种方法的常见技术包括特征词提取技术。特征词提取技术是比较正例集合和反例集合来将特征性地出现在正例集合中的词提取为特征词的技术。
这种技术的示例是PTL 1。在PTL 1中,当构造被用在文本挖掘中的字典时,将作为分析对象的文档数据分成组,并且将特征性地出现在每一组中的表述用作字典候选。
[引用清单]
[专利文献]
[PTL 1]:日本专利公开号No.2009-015394
发明内容
[技术问题]
然而,在现有技术中,通过以词或修饰级的短单位的特征词提取技术不能充分地满足文本信息监视系统的性能需求。这是因为仅通过以词或修饰级的短单位会降低检测精度。例如,即使将一个词“病毒”登记在用于监视文本信息的字典中以便检测有关计算机病毒的描述,会错误检测包括例如“感冒病毒”的文档。在这种情况下,有必要将包括一个以上的词的短语,诸如“计算机病毒”或“病毒邮件”登记在用于监视文本信息的字典中。
如上所述,最佳短语长度取决于想检测什么,因此,不可能预先将该长度判定为唯一值。由此,为了处理具有可变长度的短语,需要将具有任意长度的短语提取为候选并且计算每一短语的特征度。此外,不可能适当地处理以相同特征度输出相互重叠的多个短语的情形。
例如,提取图4中所示的短语,并且当给出在图3中所示的正反例集合时,通过针对具有各种长度的短语来执行特征词提取,以相同特征度(=3)提取“特洛伊木马”、“特洛伊”和“木马”。然而,尽管“特洛伊”或“木马”均未出现在反例集合中,但由于能想到与病毒无关的诸如“特洛伊遗址”和“旋转木马”的表述,登记在用于监视文本信息的字典中的“特洛伊”和“木马”导致较低检测精度。理论上,反例集合中出现诸如“特洛伊遗址”或“旋转木马”的表述会导致诸如“特洛伊”或“木马”的表述的较低特征度并且还导致较低检测精度。然而,实际上,很少获得具有足够数量的反例集合,因此,如上所述的这种问题经常发生。
在PTL 1中,公开了将与特征词搭配的词也视作字典登记候选的技术,然而,在是否执行字典登记的判定中,使用诸如TF(Term Frequency)(词频)和IDF(Inverse Document Frequency)(逆文档频率)的乘积的指标,但是对相互重叠的多个短语,则认为存在上述问题。
如上所述,通过由正例集合和反例集合计算的特征度构成用于监视文本信息的字典的现有技术具有导致较低检测精度的问题。
本发明要解决上述问题并且提供用于监视文本信息的字典生成装置、用于监视文本信息的字典生成方法和用于监视文本信息的字典生成程序,使得与现有技术相比,可以实现高精度检测。
[技术方案]
要解决上述问题的本发明是一种用于监视文本信息的字典生成装置,其用在文本信息监视系统中,并且生成登记检测条件的字典,其包括:特征度计算单元,对作为检测条件的候选的短语,计算表示该短语与作为监视对象的信息内容匹配的程度的特征度;以及短语有用度判定单元,基于特征度和表示由该短语限定的含义的少许模糊度的有用度,判定短语是否适合检测条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社;,未经日本电气株式会社;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380050748.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置