# MachineLearningInAction-Camp

**Repository Path**: dspinxd/MachineLearningInAction-Camp

## Basic Information

- **Project Name**: MachineLearningInAction-Camp
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-09-12
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 《机器学习实战》训练营

## 课程资料

- 《机器学习实战》书籍：[英文版](https://pan.baidu.com/s/1rVWUcPZscdE27lBQwTpoBA)，[中文版](https://pan.baidu.com/s/1a1wN3RKHQFP8GFKywVaHwQ)

- [ApacheCN](http://ml.apachecn.org/mlia/)

- [廖雪峰 Python3 教程](https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000)

- 李航《统计学习方法》(链接：https://pan.baidu.com/s/1MSx407RuPCJt5KSej0Yqlg 密码：h74l)

- 周志华《机器学习》（链接：https://pan.baidu.com/s/1wyqhvJHkI1zHph8RRsm9iw 密码：1475）

- [机器学习该怎么入门？](https://www.zhihu.com/question/20691338/answer/446610161)


## 课程安排

整个机器学习内容包括：基础、分类、预测、无监督式学习、降维与分布式几大块进行。原则上一周时间完成两章内容，总共计划 12 周时间。

基础：第 1 章

分类： 第 1～7 章

预测：第 8～9 章

无监督式学习：第 10～12 章

降维与分布式：第 13～15 章


### 1. 机器学习基础（第一周）

- 1.1 Python 基础知识，Numpy、pandas、Matplotlib 等库的简介

- 1.2 开发环境的搭建：Python3 + Anaconda + Jupyter Notebook

- 1.3 Jupyter Notebook 使用简介

### 2. k-近邻算法（第一周）

- 2.1 k-近邻算法概述

- 2.2 示例：使用 k-近邻算法改进网站的配对效果

- 2.3 示例：手写识别系统

### 3. 决策树（第二周）

- 3.1 决策树的构造

- *3.2 在 Python 中使用 Matplotlib 注解绘制树形图

- 3.3 测试和存储分类器

- 3.4 示例：使用决策树预测隐形眼镜类型

### 4. 朴素贝叶斯（第二周）

- 4.1 基于贝叶斯决策理论的分类方法

- 4.2 条件概率

- 4.3 使用条件概率来分类

- 4.4 使用朴素贝叶斯进行文档分类

- 4.5 使用 Python 进行文本分类

- 4.6 示例：使用朴素贝叶斯过滤垃圾邮件

### 5. Logistic 回归（第三周）

- 5.1 基于 Logistic 回归和 Sigmoid 函数的回归

- 5.2 基于最优化方法的最佳回归系数确定

- 5.3 示例：从疝气病症预测病马的死亡率

### 6. 支持向量机（第三周）

- 6.1 基于最大间隔分隔数据

- 6.2 寻找最大间隔

- 6.3 SMO 高效优化算法

### 7. 支持向量机（第四周）

- 6.4 利用完整 Platt SMO 算法加速优化

- 6.5 在复杂数据上应用核函数

- 6.6 手写识别问题

### 8. 天池o2o预测赛（初级）（第四周）

### 9. 利用 AdaBoost 元算法提高分类性能（第五周）

- 7.1 基于数据 多重抽样的分类器

- 7.2 训练算法：基于错误提升分类器的性能

- 7.3 基于单层决策树构建弱分类器

- 7.4 完整 AdaBoost 算法的实现

- 7.5 测试算法：基于 AdaBoost 的分类

- 7.6 示例：在一个难数据集上应用 AdaBoost

- 7.7 非均衡分类问题

### 10. 预测数值型数据：回归（第五周）

- 8.1 用线性回归找到最佳拟合直线

- 8.2 局部加权线性回归

- 8.3 示例：预测鲍鱼的年龄

- 8.4 缩减系数来“理解”数据

- 8.5 权衡偏差和方差

- 8.6 示例：预测乐高玩具套装的价格

### 11. 树回归（第六周）

- 9.1 复杂数据的局部性建模

- 9.2 连续和离散型特征的树的构建

- 9.3 将 CART 算法用于回归

- 9.4 树减枝

- 9.5 模型树

- 9.6 示例：树回归于标准回归的比较

- *9.7 使用 Python 的 Tkinter 库创建 GUI

### 12. 利用 K-均值聚类算法对未标注数据分组（第六周）

- 10.1 K-均值聚类算法

- 10.2 使用后处理来提高聚类性能

- 10.3 二分 K-均值算法

- 10.4 示例：对地图上的点进行聚类

### 13. 使用 Apriori 算法进行关联分析（第七周）

- 11.1 关联分析

- 11.2 Apriori 原理

- 11.3 使用Apriori 算法来发现频繁集

- 11.4 从频繁项集中挖掘关联规则

- 11.5 示例：发现国会投票中的模式

- 11.6 示例：发现毒蘑菇的相似特征

### 14. 使用 FP-growth 算法来高效发现频繁项集（第七周）

- 12.1 FP 树：用于编码数据集的有效方式

- 12.2 构建 FP 树

- 12.3 从一颗 FP 树中挖掘频繁项集

- 12.4 示例：在 Twitter 源中发现一些共现词

- 12.5 示例：从新闻网站点击流中挖掘

### 15. 利用 PCA 来简化数据（第八周）

- 13.1 降纬技术

- 13.2 PCA

- 13.3 示例：利用 PCA 对半导体制造数据降维

### 16. 利用 SVD 简化数据（第八周）

- 14.1 SVD 的应用

- 14.2 矩阵分解

- 14.3 利用 Python 实现 SVD

- 14.4 基于协调过滤的推荐引擎

- 14.5 示例：餐馆菜肴推荐引擎

- 14.6 示例：基于 SVD 的图像压缩

### 17. 大数据与 MapReduce（第九周）

- 15.1 MapReduce：分布式计算的框架

- 15.2 Hadoop 流

- *15.3 在 Amazon 网络服务上运行 Hadoop 程序

- 15.4 MapReduce 上的机器学习

- 15.5 在 Python 中使用 mrjob 来自动化 MapReduce

- 15.6 示例：分布式 SVM 的 Pegasos 算法

- 15.7 你真的需要 MapReduce 吗？

### 天池 O2O 预测赛（高级）（第九周）

### 第 1～7 章总结（第十周）

### 第 8～9 章总结（第十一周）

### 第 10～12 章总结（第十一周）

### 第 13～15 章总结（第十二周）

### 其它机器学习算法（拓展，待定）（第十二周）