[发明专利]用于电视领域语义分析的分词系统在审
申请号: | 201811325961.4 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109408828A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 高岚 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 专用词典 语料库 电视领域 语义分析 分词处理模块 模型训练模块 查询模块 分词系统 生成模块 标注 语音文本数据 分词处理 语料生成 专用词汇 遍历 语料 查询 通用 | ||
本发明涉及分词领域,公开了一种用于电视领域语义分析的分词系统,用以解决CRF分词方法对于专用词汇和名称进行分词出现错误的问题。本发明包括:包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库;其中,CRF模型训练模块用于使用基于词典的分词方法对语料库中的通用语料进行分词和标注,将标注后的语料库利用CRF工具进行训练得到CRF分词模型;专用词典生成模块用于基于语料库中的专业语料生成一个专用词典;分词处理模块用于采用CRF分词模型对用户的语音文本数据分词处理,并通过专用词典查询模块遍历查询专用词典,对CRF分词模型分词后的某些字和词进行组合,生成专用名词。本发明适用于电视领域语义分析。
技术领域
本发明涉及分词领域,特别涉及用于电视领域语义分析的分词系统。
背景技术
一个机器如果要理解一段人类的语言,那么它必须要知道相应的语言知识。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库,所有这些都跟词相关。
那么在中文信息处理系统中,只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位,当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性。
众所周知,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。所以,对中文系统来说,分词是机器语言学的基础。所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词,词是最小的、能独立活动的、有意义的语言成分。
分词方法有很多,早期的分词方法多是基于词典的字符串匹配的分词方法,这类方法的优点是速度快、效率高,在目前的工业领域广泛应用,但它的缺点也很明显,由于这类方法过度依赖词典和规则库,因此对歧义词和未登录词的识别能力较低,即出现新的词汇,很难将其分辨出来。随着机器学习技术的发展,新一代的机器学习技术分词方法出现了——条件随机场(Conditional Random Field,即CRF)分词方法。
CRF分词方法不仅考虑了文字词语出现的频率信息,同时考虑上下文语境,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。作为一种通用领域的分词技术,CRF的分词效果是非常不错的,但在特定领域中,由于一些专用词汇和名称的特殊性,CRF分词会出现错误。比如,一部电影名称,往往由多个词汇组成,如果只使用CRF分词,那么这部电影名称会被分为多个词汇,在检索的时候,将会出现无法检索这部电影名称的情况。
在电视领域,这些专用名称非常多,比如电影名称、电视剧名称、电视节目名称、电视台名称等等。如果电视要理解用户的语言信息,必须能够识别出这些专用名称,并正确理解用户的意图。
发明内容
本发明要解决的技术问题是:提供一种用于电视领域语义分析的分词系统,用以解决CRF分词方法对于专用词汇和名称进行分词出现错误的问题。
为解决上述问题,本发明采用的技术方案是:用于电视领域语义分析的分词系统,包括分词处理模块、CRF模型训练模块、专用词典生成模块、专用词典查询模块以及语料库;
CRF模型训练模块用于使用基于词典的分词方法对语料库中的通用语料进行分词和标注,将标注后的语料库利用CRF工具进行训练得到CRF分词模型;
专用词典生成模块用于基于语料库中的专业语料生成一个专用词典;
分词处理模块用于采用CRF分词模型对用户的语音文本数据分词处理,并通过专用词典查询模块遍历查询专用词典,对CRF分词模型分词后的某些字和词进行组合,生成专用名词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811325961.4/2.html,转载请声明来源钻瓜专利网。