Курс AI05 - Vision Foundation Models & Multimodal AI обучение в Казахстане — HGK

Vision Foundation Models & Multimodal AI - AI05

Искусственный интеллект Artificial Intelligence

AI05 - Vision Foundation Models & Multimodal AI

Описание курса

Описание

Программа посвящена современным foundation‑моделям компьютерного зрения и мультимодальным моделям (VLM): zero‑shot детекции и сегментации, визуальному вопросно‑ответному анализу, доменной адаптации, видеоаналитике и развёртыванию на edge‑устройствах и в высоконагруженном облаке.

Аудитория

Инженеры компьютерного зрения, ML‑инженеры, команды Document AI, производственные и ритейл‑команды контроля качества и мониторинга.

Расписание

День 1. Foundation‑бекбоны и zero‑shot vision.

Универсальные визуальные бекбоны (DINOv3, SigLIP‑2) как экстракторы признаков. Open‑vocabulary детекция (OWLv3, Grounding DINO 2) и поиск объектов по текстовому описанию без дообучения. Иерархическая сегментация Segment Anything 3 и видеотрекинг масок. Построение пайплайна автоматической разметки данных.

День 2. VLM и визуальный вопросно‑ответный анализ.

Архитектура современных VLM и роль визуальных проекторов. Извлечение данных из документов, чертежей и пользовательских интерфейсов в логике Document AI. Spatial reasoning: понимание координат, расстояний и относительного расположения объектов. Проектирование мультимодального пайплайна под доменный кейс слушателя.

День 3. Дообучение и доменная адаптация.

Parameter‑efficient методы (LoRA, DoRA) для vision‑бекбонов и мультимодальных проекторов. Дообучение декодеров сегментации под специфические объекты предметной области. Ускоренное обучение VLM с помощью Unsloth и оптимизация потребления VRAM. Синтетические данные через диффузионные модели для расширения обучающих корпусов.

День 4. Видеоаналитика и temporal reasoning.

Long‑context video understanding и работа с длинными видеопотоками. Устойчивый трекинг при перекрытиях с помощью современных моделей трекинга. Распознавание действий и понимание намерений через рассуждения модели. Системы событийного мониторинга на примерах промышленной безопасности.

День 5. Edge AI и продуктивное развёртывание.

Низкобитная квантизация (4‑bit, тернарные представления) для запуска VLM на ограниченном оборудовании. Оптимизация мультимодальных цепочек через ONNX и TensorRT‑LLM. Speculative decoding для ускорения генерации описаний. Упаковка модели под целевое устройство и измерение FPS, латентности и энергопотребления.

Записаться на курс «AI05 - Vision Foundation Models & Multimodal AI»

Наши партнеры

Antcolony
Huawei
Checkpoint
Asterisk
Juniper
Cisco
Wireshark
Paloalto
IBM
Fortinet
VMWare