分类：数据挖掘

sklearn的高斯混合模型GMM与Kmeans的实现

Scikit-learn是基于numpy和scipy的一个机器学习算法库，包含很多监督学习，非监督学习一级半监督学习的算法。同时也包括数据特征提取，数据清洗等的一些功能。从功能来分，有以下几个：分类Classificat…

本项目实验流程如下：流程图.png 项目背景介绍情感分析就是根据文本推测出这段文本所蕴含的感情：积极或者是消极的，实际上情感不只是有积极或者消极，人还会有生气、开心、悲伤等各种情绪，但是计算机不同于人，理论上只要有足…

背景介绍在和实验室导师讨论构建旅游文本仓库的时候，老师的一记操作让我很吃惊… wget --mirror some ip 这个操作老师称此为一锅端，是将某个网址域名下的所有网址内容都递归wget到̷…

文章大纲： 1.从0到1分类系统搭建流程介绍 2.相关技术背景和知识原理 3.分类测评结果前言有一段时间没有重新写文章了，这次主要写的内容是自己刚入门的机器学习领域中的文本分类。起初做这个的目的是考虑到一个问题，就是…

背景介绍由于项目需要，需要对旅游游记文本进行聚类，为打标签做指导，所以调研了主流的短文本聚类方法，文本聚类主要还是分成两个方面。 1. 提取文本特征在《数学之美》前几章中，详细讲了为何要将文本这个自然语言领域的事物，…

本文为你展示，如何用Python把许多PDF文件的文本内容批量提取出来，并且整理存储到数据框中，以便于后续的数据分析。问题最近，读者们在后台的留言，愈发五花八门了。写了几篇关于自然语言处理的文章后，一种呼声渐强： …

Python安装 python学习一 python语法，及变量类型 python学习二爬一个图片网站上 python学习二 02 爬一个图片网站，获得主链接网址，并保存 python学习二 03 爬一个图片网站…

一、LDA简介 LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以…

（一）关于Kaggle image.png 作为小白只能这样子解释Kaggle了，不敢高声语。（二）电影数据分析（一）电影数据下载： tmdb_5000_movies 这里我们要下载两个文件： image.png -…

图片来自网络 1 初始文本挖掘 1.1 何为文本挖掘文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。 1.2 文本挖掘基本流程文本挖掘的过程相似…

继续更新出来本系列的代码：乱炖数据之2700余篇“简书交友”专题文章数据的花式玩法在乱炖“简书交友”数据之代码（1）一文里，主要涉及结构化数据的分析，文本挖掘如词频统计、词云图等。本文继续用jieba库抽取文本关键词，…

1.jieba关键词提取提速 https://www.jianshu.com/p/450b84a07d3b 之前需要提取关键词，所以介绍了jieba关键词提取，这可能是最简单的提取关键词的方法了，此种方法代码少，（只有两…