Vision Foundation Models & Multimodal AI - AI05
Искусственный интеллект Artificial Intelligence
AI05 - Vision Foundation Models & Multimodal AI
- Длительность: 5 дней (40 часов)
- Код курса: AI05
- Стоимость
- Очный формат: 799 000 ₸
- Онлайн формат: 780 000 ₸
Описание курса
Описание
Программа посвящена современным foundation‑моделям компьютерного зрения и мультимодальным моделям (VLM): zero‑shot детекции и сегментации, визуальному вопросно‑ответному анализу, доменной адаптации, видеоаналитике и развёртыванию на edge‑устройствах и в высоконагруженном облаке.
Аудитория
Инженеры компьютерного зрения, ML‑инженеры, команды Document AI, производственные и ритейл‑команды контроля качества и мониторинга.
Расписание
День 1. Foundation‑бекбоны и zero‑shot vision.
Универсальные визуальные бекбоны (DINOv3, SigLIP‑2) как экстракторы признаков. Open‑vocabulary детекция (OWLv3, Grounding DINO 2) и поиск объектов по текстовому описанию без дообучения. Иерархическая сегментация Segment Anything 3 и видеотрекинг масок. Построение пайплайна автоматической разметки данных.
День 2. VLM и визуальный вопросно‑ответный анализ.
Архитектура современных VLM и роль визуальных проекторов. Извлечение данных из документов, чертежей и пользовательских интерфейсов в логике Document AI. Spatial reasoning: понимание координат, расстояний и относительного расположения объектов. Проектирование мультимодального пайплайна под доменный кейс слушателя.
День 3. Дообучение и доменная адаптация.
Parameter‑efficient методы (LoRA, DoRA) для vision‑бекбонов и мультимодальных проекторов. Дообучение декодеров сегментации под специфические объекты предметной области. Ускоренное обучение VLM с помощью Unsloth и оптимизация потребления VRAM. Синтетические данные через диффузионные модели для расширения обучающих корпусов.
День 4. Видеоаналитика и temporal reasoning.
Long‑context video understanding и работа с длинными видеопотоками. Устойчивый трекинг при перекрытиях с помощью современных моделей трекинга. Распознавание действий и понимание намерений через рассуждения модели. Системы событийного мониторинга на примерах промышленной безопасности.
День 5. Edge AI и продуктивное развёртывание.
Низкобитная квантизация (4‑bit, тернарные представления) для запуска VLM на ограниченном оборудовании. Оптимизация мультимодальных цепочек через ONNX и TensorRT‑LLM. Speculative decoding для ускорения генерации описаний. Упаковка модели под целевое устройство и измерение FPS, латентности и энергопотребления.
Записаться на курс «AI05 - Vision Foundation Models & Multimodal AI»
Контакты
LinkedIn
Email
Web










