[发明专利]一种规范化标签体系构建及文本自动标注方法有效

申请号：	202110765666.6	申请日：	2021-07-07
公开（公告）号：	CN113553429B	公开（公告）日：	2023-09-29
发明（设计）人：	郭青松;吴朝雄;于冰;吴礼兵;杨兵	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36;G06F40/216;G06F40/289;G06F40/30
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	王雪芬
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种规范化标签体系构建文本自动标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种规范化标签体系构建方法，其特征在于，包括以下步骤：

1.1、输入第一分类标签：{文本}；

1.2、输入第二类分类标签：{政治，科技，财经，军事，教育，社会，文化，娱乐，体育，其他}；

1.3、对爬取的已有的文本数据作为目标文章进行预处理；

1.4、利用基于LDA主题的聚类模型对预处理后的文本数据进行聚类；

1.5、取聚类后目标文章中的前几个主题词，作为候选的第四分类标签；

1.6、利用基于web知识库查询上下位关系，最终抽取出概率最高的上位词作为第三分类标签；

1.7、通过计算第三分类标签和第二分类标签的相似度，将二者进行匹配关联；

1.8、输出四层标签体系。

2.如权利要求1所述的方法，其特征在于，步骤1.3中，对在网站中爬取的贴文、评论、文章这些文本数据进行预处理，包括数据清洗、去停用词、数据去重操作；步骤1.4中，将预处理后的纯文本输入聚类模型中进行聚类，其中使用基于LDA主题的聚类模型，对待处理文本进行聚类；步骤1.5中，输出聚类后的主题词列表，选取其中10个主题词作为候选的第四分类标签；步骤1.6中，然后利用基于中文维基百科、百度百科这些知识库的上下位关系查询算法，抽取候选的第四分类标签中概率最高的上位词作为第三分类标签；步骤1.7中将第三分类标签与第二分类标签相关联，通过计算两者的相似度进行匹配，当相似度大于预设阈值时，则认为两种分类标签相匹配，至此形成标签体系。

3.如权利要求2所述的方法，其特征在于，步骤1.3的数据获取及预处理过程中，利用爬虫获取新闻网站、论坛的数据，内容包括贴文、评论、文章，爬取的数据涉及政治、科技、财经、军事、教育、社会、文化、娱乐、体育领域，获取到数据后，首先利用BeautifulSoup库对html文档进行解析，输出纯文本，然后利用正则表达式去除文本中的链接、非法字符，处理完成后存入本地，此时获得了文档集合D＝{d₁,d₂,...,d_i,...,d_n}，n为整数，将所有文档写入同一个文件中；

接下来对各个文档进行分词处理，使用Jieba分词，找出最大概率路径，并将其作为最终的分词结果，同时通过语料训练出HMM相关的模型，然后利用Viterbi算法进行求解，最终得到最优的状态序列，来解决未登录词的分词问题，分词完成后，利用停用词表去除文档中的停用词，形成如式(1)所示的数据：

其中w_i是文档中的词，S为停用词表中词的集合，i＝1,…,n。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110765666.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于哈希及密钥交换的高效PSI方法
下一篇：一种基于虚拟传感器的局部放电源定位方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种规范化标签体系构建及文本自动标注方法有效

专利文献下载