Локальное дообучение открытых больших языковых моделей под прикладной класс задач - AI04
Искусственный интеллект Artificial Intelligence
AI04 - Локальное дообучение открытых больших языковых моделей под прикладной класс задач
- Длительность: 5 дней (40 часов)
- Код курса: AI04
- Стоимость
- Очный формат: 799 000 ₸
- Онлайн формат: 780 000 ₸
Описание курса
Описание
Программа охватывает полный цикл пост‑тренинга открытых больших языковых моделей под конкретный класс прикладных задач: подготовку данных, supervised fine‑tuning и parameter‑efficient методы (LoRA, QLoRA), оптимизацию по предпочтениям и обучение с подкреплением (GRPO), оценку качества и продуктивную эксплуатацию. По итогам обучения слушатель строит воспроизводимый пайплайн «данные → обучение → оценка → квантизация → API» и достигает измеримого улучшения качества на собственной задаче.
Аудитория
ML‑инженеры, исследователи, инженеры прикладного ИИ, технические руководители, отвечающие за качество и стоимость инференса, а также разработчики, внедряющие локальные модели в корпоративный контур.
Расписание
День 1. Ландшафт моделей и инфраструктура.
Экосистема открытых моделей 2026 года: семейства MoE и dense, ключевые архитектурные тренды (linear attention, мультимодальная early fusion) и лицензионные ограничения. Выбор стратегии адаптации модели в логике prompt engineering → RAG → SFT → preference optimization → reinforcement fine‑tuning. Настройка рабочего окружения (CUDA, PyTorch, Transformers, PEFT, bitsandbytes, accelerate, Unsloth, TRL). Базовый бенчмарк качества до обучения и сравнительный анализ MoE‑ и dense‑моделей при фиксированном бюджете VRAM.
День 2. Подготовка данных и верификация.
Форматы датасетов (ChatML, ShareGPT, Alpaca) и критерии их выбора. Принципы качества обучающих корпусов: разнообразие, консистентность, сложность, edge cases, баланс объёма и предметной плотности. Синтетическая генерация данных с использованием сильной модели‑учителя; формирование задач из корпоративных документов. Одновременная подготовка трёх типов данных: пары для SFT, пары предпочтений и программные верификаторы. Очистка, дедупликация, корректное разбиение train/val/test с контролем утечек.
День 3. Supervised fine‑tuning и parameter‑efficient методы.
Сопоставление full fine‑tuning и PEFT, область применения каждого подхода. Математика и практика LoRA и QLoRA, выбор rank, alpha и target modules; альтернативы (DoRA, LongLoRA). Ключевые гиперпараметры (learning rate, batch size, gradient accumulation, warmup, число эпох) и стратегии предотвращения катастрофического забывания. Серия экспериментов с мониторингом метрик в Weights & Biases, экспорт и слияние адаптеров с базовой моделью.
День 4. Оптимизация по предпочтениям и reinforcement fine‑tuning.
Семейство методов DPO, SimPO, KTO, ORPO и условия их применения. GRPO как опорный метод 2026 года, обучение с программной верификацией (RLVR), стабилизация длинных цепочек рассуждений (DAPO). Проектирование reward‑функций под прикладную задачу и защита от reward hacking. Сравнительный анализ стадий base → SFT → preference → GRPO с интерпретацией приростов качества и сопутствующих рисков.
День 5. Развёртывание и продуктивные практики.
Квантизация для инференса (GPTQ, AWQ, GGUF) и критерии её выбора. Serving‑стек (vLLM, llama.cpp, SGLang, Ollama), structured output и constrained decoding; оптимизация KV‑кэша и prefix caching. Нагрузочное тестирование по показателям latency и throughput. Упаковка пайплайна как воспроизводимого проекта и непрерывный цикл «обратная связь → инкрементальный GRPO». Защита итогового результата с метриками «до/после» и демонстрацией работающей модели.
Записаться на курс «AI04 - Локальное дообучение открытых больших языковых моделей под прикладной класс задач»
Контакты
LinkedIn
Email
Web










