[发明专利]基于最大置信度的中文复合新词发现方法有效

申请号：	201610779163.3	申请日：	2016-08-30
公开（公告）号：	CN106339481B	公开（公告）日：	2019-04-30
发明（设计）人：	袁华;钱宇;徐华林	申请（专利权）人：	电子科技大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/951;G06F17/27
代理公司：	四川省成都市天策商标专利事务所 51213	代理人：	卞涛
地址：	610000 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及中文信息处理领域，提供一种基于最大置信度的中文复合新词发现方法，该方法包括步骤：文本内容抽取及数据预处理；序列频繁模式挖掘；复合新词发现。本发明提出的技术方案在保持准确率的同时，显著地提升了抽取结果的召回率和准确率。
搜索关键词：	基于最大置信中文复合新词发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于最大置信度的中文复合新词发现方法，其特征在于包括步骤：A、文本内容抽取及数据预处理从目标网站中抓取网络文本信息数据，对网络文本信息数据进行预处理，形成数据集T，T＝{t₁,...,t_i,...t_|T|}，词向量t_i为数据集T中第i条切分文本，其中t_i由m_i个有序的语义词单元t_ij构成，j＝1,...,m_i，|T|表示切分后文本数量，元素t_ij是数据集T中第i条切分文本中的第j个语义词，所述预处理至少包括对文本信息数据进行分词、标注标点符号和停用词标注；B、序列频繁模式挖掘找出满足最小支持度min supp的1‑项序列频繁项FP⁽¹⁾(T)和2‑项序列频繁项FP⁽²⁾(T)，其中，数据集T中的任意p‑项频繁集表示为：FP^(p)(T)＝{X^(p)|supp(X^(p))≥min supp}，supp(X^(p))表示包含项集X^(p)的事务在数据集中的数量；C、复合新词发现该步骤包括步骤：C1、对于数据集T中任意语义词单元序列t_ijt_ij+1∈T,i＝1,...,n,j＝1,...,m_i，如果序列满足θ_x≥θ₀，则抽取该序列；C2、将所有抽取的语义词单元序列替换成新的语义词单元，重新整顿序列序号，再次扫描语料内容并更新数据集T，返回步骤C1进行新一轮复合新词抽取，反复循环步骤C1和步骤C2，直至数据集T中没有满足θ_x≥θ₀的语义词单元序列，步骤C中，θ_x为2‑项序列频繁集X＝{t_i1t_i2}的最大置信度，θ₀为预设的抽取阈值，所述新的语义词单元由被替换的语义词单元序列合并而成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610779163.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于最大置信度的中文复合新词发现方法有效

专利文献下载