Vision Foundation Models & Multimodal AI - AI05

Искусственный интеллект Artificial Intelligence

Human Growth Kazakhstan
>
Искусственный интеллект Artificial Intelligence
>
Vision Foundation Models & Multimodal AI

AI05 - Vision Foundation Models & Multimodal AI

Направление: Искусственный интеллект Artificial Intelligence
Длительность: 5 дней (40 часов)
Код курса: AI05
Стоимость
Очный формат: 799 000 ₸
Онлайн формат: 780 000 ₸

Описание курса

Описание

Программа посвящена современным foundation‑моделям компьютерного зрения и мультимодальным моделям (VLM): zero‑shot детекции и сегментации, визуальному вопросно‑ответному анализу, доменной адаптации, видеоаналитике и развёртыванию на edge‑устройствах и в высоконагруженном облаке.

Аудитория

Инженеры компьютерного зрения, ML‑инженеры, команды Document AI, производственные и ритейл‑команды контроля качества и мониторинга.

Расписание

День 1. Foundation‑бекбоны и zero‑shot vision.

Универсальные визуальные бекбоны (DINOv3, SigLIP‑2) как экстракторы признаков. Open‑vocabulary детекция (OWLv3, Grounding DINO 2) и поиск объектов по текстовому описанию без дообучения. Иерархическая сегментация Segment Anything 3 и видеотрекинг масок. Построение пайплайна автоматической разметки данных.

День 2. VLM и визуальный вопросно‑ответный анализ.

Архитектура современных VLM и роль визуальных проекторов. Извлечение данных из документов, чертежей и пользовательских интерфейсов в логике Document AI. Spatial reasoning: понимание координат, расстояний и относительного расположения объектов. Проектирование мультимодального пайплайна под доменный кейс слушателя.

День 3. Дообучение и доменная адаптация.

Parameter‑efficient методы (LoRA, DoRA) для vision‑бекбонов и мультимодальных проекторов. Дообучение декодеров сегментации под специфические объекты предметной области. Ускоренное обучение VLM с помощью Unsloth и оптимизация потребления VRAM. Синтетические данные через диффузионные модели для расширения обучающих корпусов.

День 4. Видеоаналитика и temporal reasoning.

Long‑context video understanding и работа с длинными видеопотоками. Устойчивый трекинг при перекрытиях с помощью современных моделей трекинга. Распознавание действий и понимание намерений через рассуждения модели. Системы событийного мониторинга на примерах промышленной безопасности.

День 5. Edge AI и продуктивное развёртывание.

Низкобитная квантизация (4‑bit, тернарные представления) для запуска VLM на ограниченном оборудовании. Оптимизация мультимодальных цепочек через ONNX и TensorRT‑LLM. Speculative decoding для ускорения генерации описаний. Упаковка модели под целевое устройство и измерение FPS, латентности и энергопотребления.

Записаться на курс «AI05 - Vision Foundation Models & Multimodal AI»

Контакты

Адрес
г.Алматы, Республика Казахстан 050012, ул. Амангельды, д.59А, 6-й этаж, офис 61, БЦ «Шартас»
Телефоны
+ 7 771 167 77 57
+ 7 777 137 10 73

LinkedIn
linkedin.com/hgk
Email
info@hgk.kz

Web
hgk.kz

Vision Foundation Models & Multimodal AI - AI05

AI05 - Vision Foundation Models & Multimodal AI

Описание курса

Описание

Аудитория

Расписание

Записаться на курс «AI05 - Vision Foundation Models & Multimodal AI»

Контакты

Адрес

Телефоны

LinkedIn

Email

Web

Расположение на карте

Наши партнеры

Vision Foundation Models & Multimodal AI - AI05

AI05 - Vision Foundation Models & Multimodal AI

Описание курса

Описание

Аудитория

Расписание

Записаться на курс «AI05 - Vision Foundation Models & Multimodal AI»

Контакты

Адрес

Телефоны

LinkedIn

Email

Web

Расположение на карте

Наши партнеры

Поиск