Это практический курс по ML — не слайды с формулами, а интерактив: подвинь ползунок и почувствуй регуляризацию. Нажми кнопку и увидишь, как градиент затухает в глубокой сети. Собери RAG-пайплайн и поймёшь, почему LLM галлюцинируют без контекста. Каждая идея закреплена виджетом, который делает абстракцию осязаемой.
Что вас ждёт: 8 глав, 42 урока
Структура курса
Нажми на кольцо — кратко о главе
Нажми на кольцо — кратко о главе
70 лет в 8 вехах: короткая история ML
Нажми на событие — суть прорыва ▶
1957
Перцептрон
1986
Backprop
1995
SVM
2012
AlexNet
🔥 Прорыв
2017
Трансформер
Attention is all you need
2022
ChatGPT
100M пользователей за 2 месяца
2023–2024
GPT-4 / Gemini
Попробуйте сейчас: нейрон изнутри
Нейрон — это функция: взвешенная сумма входов и нелинейная активация. Потащите точку по оси x. Сигмоида на краях насыщается — производная стремится к нулю? Поэтому глубокие сети на сигмоиде почти не учились до 2012. ReLU исправляет это: производная 1 при x > 0.
Зайди в красную зону — смотри, как падает производная. Переключись на ReLU — разница очевидна.
ACTIVATION EXPLORER · Sigmoid
σ(x) = 1 / (1 + e⁻ˣ)
x0.000
f(x)0.5000
f'(x)0.2500
|f'(x)| = 0.250
x = 0.000 → f(x) = 0.5000 · f′(x) = 0.2500 — gradient flows well; the layer trains actively.
Это обучение: спуск по поверхности потерь
Обучение нейросети — поиск минимума в многомерном ландшафте. Шаг: градиент → шаг против градиента → повтор. Нажми Start и смотри, как шарик скатывается в долину. Слишком большой learning rate — перелёт. Слишком маленький — ползёт вечность.
Нажми Start — смотри спуск. Попробуй разные learning rate
LOSS LANDSCAPE · GRADIENT DESCENT
0 / 80 steps
Learning Rate
Плавный спуск к минимуму.
iteration—
x3.5000
f(x)5.9050
f'(x) =8.3200
step = −lr × f′(x)
= −0.1 × 8.3200
= -0.8320
x_new = x + step
= 3.5000 + (-0.8320)
= 2.6680
|f'(x)| = 8.3200 (→ 0 at the minimum)
Press Step or Play to run gradient descent
Как модель выбирает класс: softmax
После всех слоёв сеть выдаёт логиты. Softmax превращает их в вероятности: все положительные, в сумме 1. Температура T задаёт «уверенность»: низкая T — один класс доминирует; высокая — более плоское распределение. Тот же рычаг при сэмплировании из LLM.
Двигай логиты или температуру — смотри, как меняются вероятности
ML учат руками, а не глазами. Прочитать про градиентный спуск — не то же самое, что почувствовать его. Каждый виджет заточен под момент «ага». Не пропускайте интерактив — там и рождается понимание.
Трогайте каждый ползунок: виджет реагирует — так выстраивается интуиция.
Читайте строки с формулами под виджетами: они объясняют математику в реальном времени.
Запускайте код: в каждом code-explorer есть исполняемый Python, который можно скопировать.
Можно прыгать по главам: они относительно независимы. Нужен NLP или CV — переходите сразу туда.
ℹ️Что нужно заранее: базовый Python (списки, функции, классы), школьная математика (функции, производные на уровне идеи). Линейная алгебра и теория вероятностей объясняются по ходу — отдельная подготовка не обязательна. Для практики: Python 3.11+, pip install torch numpy pandas scikit-learn matplotlib.