全栈数据，主要技术点

2019年6月8日 259次阅读来源: i败火

《全栈数据，主要技术点》生命之源

0. 缘起

本文仅仅只是列出一些知识点，拟做为内部技术分享的点，只是对『全栈数据』技术点有一个概要性的了解。

列出的点，99%都是自己的经验，或接触、或了解、或实战的内容。

本文对你不一定有多大的技术提升，因为很多点都需要扩展开来介绍，才更有意思。

如果有想法，请提更多的意见。

重点：环境搭建，部分做数据分析的人，可能会卡在环境的搭建上，主要需要Linux技能。

重点：全面的熟悉数据科学中的知识点。

重点：熟悉处理海量数据的常用工具，存储与分析，每个工具的适用场景

重点：数据库是数据分析中最常用的依托，熟悉SQL语句，以及如果使用Python来进行数据处理。

SQL语句（常用join语句）
python
python2与python3的问题
库：numpy, pandas, scikit-learn，nltk, pyltp, pyspark、anaconda
R
学术界，快速建模
Scala、java

重点：学习语言，是自动化处理数据和建模的必备工具，SQL必备，Python与R至少需要熟悉一种。要工程应用，Python是必备。

重点：了解数据处理的一些常用方法，理解特征工程的方法，熟悉主流挖掘算法的基本过程，会调用相应的库来建模，理解算法评估的常用指标。

聚类、分类、回归
kmeans, knn, logistic regression, linear regression， navie bayes, 决策树、随机森林、神经网络、Xgboost
自然语言处理
CRF、分词、实体识别、语义分析，word2vec，深度学习(cnn,rnn)
个性推荐，用户画像
深度学习
应用（非结构化）：图片，语音，视频，自然语言处理
算法：auto encoder, cnn, rnn, lstm
框架：tf/keras/mxnet/caffe/pytorch
遗传算法：优化，ga, gp

重点：理解主流算法的应用场景及其主要参数，熟悉自然语言处理中一些基本的方法，理解深度学习的主要思想，熟悉一、两个深度学习框架，能使用迁移学习做一些图片分类的任务。

重点：数据可视化工具，数据可视化挖掘工具，交互式笔记工具，事半功倍的工具，数据分析入门的好工具，个人珍藏收集。

重点：当今世界最流行、不可多得的、分布式的，全栈数据处理、分析、挖掘环境。

重点：如生命离不开水一般，简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度，高精度的算法产出。

关注微信公众号『全栈数据』，回复：qzsjzsd，获取pdf版本下载地址与密码。

《全栈数据，主要技术点》全栈数据公众号

    原文作者：i败火
    原文地址: https://www.jianshu.com/p/fbf3896eef5c
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。