跳到主要内容

机器学习简介

历史

马文·李·闵斯基 Marvin Lee Minsky 1927年8月9日~2016年1月24日 麻省理工学院人工智能实验室创始人之一。 提出人工智能概念。

发展

阶段

第一次繁荣期 确定人工智能概念和发展目标

  • 1950年,艾伦·图灵(人工智能之父)提出图灵测试
  • 1950年 人工智能、国际象棋
    • 1954年, Minsky 提出强化学习
  • 1956年8月,达特茅斯回忆,
    • 约翰·麦卡锡提出人工智能,制造智能机器的科学与工程
  • 1957年,Frank Rosenblatt 设计出第一个计算机神经网络,感知机
  • 1959年,Arthur Samuel 提出机器学习
  • 1976年,机器翻译等项目失败及一些学术报告负面影响,人工智能经费普遍减少
  • 1980年,机器学习、垃圾邮件过滤
  • 1981年,Gerald Dejong 提出基于解释的学习概念 Explanation's based learning
  • 1985男,出现更强可视化效果的决策树模型和突破早起感知局限性的多层人工神经网络
  • 1987年 LISP机市场崩溃
  • 1990年代,机器学习的方法从感知缺东转为数据驱动
  • 2010年 深度学习、识别猫
  • 2016年,谷歌的人工智能算法打败围棋的专业选手

分支

  • 机器学习

    • 监督学习
      • 分类学习
      • 回归学习
      • 排序学习
      • 匹配学习
        • Boosting
          • Adaboost
          • GBDT
          • XGBoost
        • Bagging
          • 随记森林
    • 无监督学习
      • 聚类算法
        • kmeans
        • 层次聚类
        • DBSCAN
    • 半监督学习
    • 强化学习
      • 经典算法
      • Value Bassed 算法
      • 策略梯度算法
      • Actor-Critic 算法
  • 深度学习

    • 深度神经网络
    • 卷积神经网络
    • 循环神经网络
      • LSTM
      • GRU
    • 深度信念网络
      • 受限玻尔兹曼机
    • GAN
  • GNN (图网络)

影响

  • 计算能力
  • 数据大小
  • 算法发展

能做什么

  • 视觉处理与识别(计算机视觉)
    • 图像处理
      • 图片艺术化
    • 图像分类
    • 图像目标检测
      • 车辆识别
      • 路灯识别
      • 医疗图片识别
    • 图像分割
    • 视频处理
  • 语音识别(处理)
    • 传统语音识别算法
      • 高斯混合模型
      • 隐马歇尔模型
    • 深度学习语音识别算法
  • 自然语言处理
    • 语言模型
      • 传统语言模型
      • 深度学习模型
    • 词向量模型
      • One-hot
      • TF-idf
      • Word2vec
    • 概率图模型
      • 隐马歇尔夫模型
      • 条件随机场-CRF
    • 句法分析与语义分析
      • 句法结构分析
      • 依存句法分析
      • 语义分析
  • 规划决策系统(推荐系统)
    • 基于内容推荐
    • 基于内存的协同过滤
    • 基于模型的协同过滤
    • 关联规则算法
  • 大数据分析(知识图谱)
    • 知识抽取
    • 知识表示
    • 知识融合
    • 知识加工

预测

  • 信贷需求预测
  • 店铺销量预测
  • 房价

机器学习领域

  • 自然语言处理
  • 图像识别
  • 传统预测

库和框架

  • TensorFlow
  • Keras
  • theano
  • Caffe2
  • Chainer
  • ...

  • 统计学习方法
  • 机器学习
  • python 数据分析与挖掘时间
  • 机器学习系统设计
  • 面向机器智能 tensorFlow 实践
  • TensorFlow 技术解析与实践

课程定位

以算法、案例为驱动的学习,浅显易懂的数学知识

目标:

  • 熟悉机器学习各类算法的原理
  • 掌握算法的使用,能够结合场景解决实际问题
  • 忘我使用机器学习算法库和框架的技能

可用数据集

scikit-learn 数据集特点 1、数据量较小 2、方便学习

kaggle 数据集特点: 1、大数据竞赛平台 2、80万科学家 3、真实数据 4、数据量巨大

UCI 数据集特点: 1、收录了360个数据集 2、覆盖科学、生活、经济等领域 3、数据量几十万

流程

数据清洗 ->

数据预处理、特征工程、机器学习、模型评估、

离线、在线服务

特征工程

1、特征抽取 2、数据的特征预处理 3、数据的降维

pip3 install Scikit-lean

Classification 分类 Regression 回归 Clustering 聚类 Dimensiionality reduction 降维 Model selection 模型选择 Preprocessing 特征工程