Курс AI08 - Advanced Russian & Multilingual NLP обучение в Казахстане — HGK

Advanced Russian & Multilingual NLP - AI08

Искусственный интеллект Artificial Intelligence

AI08 - Advanced Russian & Multilingual NLP

Описание курса

Описание

Программа охватывает специфику применения современных языковых моделей к русскому языку и многоязычным сценариям: токенизацию кириллицы, кросс‑языковой перенос знаний, доменную адаптацию под юридические, медицинские и государственные тексты, а также методы оценки качества и согласования.

Аудитория

Инженеры NLP, ML‑инженеры, исследователи, разработчики корпоративных ассистентов и систем документооборота, работающие с русским языком и многоязычными корпусами.

Расписание

День 1. Архитектура и токенизация для кириллицы.

Сравнительный анализ токенизаторов современных открытых и проприетарных моделей и влияние словаря на скорость и стоимость инференса. Кросс‑языковой перенос знаний из англоязычных корпусов в русскоязычные модели без потери качества рассуждений. Эмбеддинг‑модели для GraphRAG и работа с многоязычными представлениями, учитывающими профессиональный жаргон. Оценка эффективности токенизации и стоимости обработки большого объёма токенов.

День 2. Извлечение знаний и доменная адаптация.

Мультимодальное извлечение из сканов документов в логике совместного OCR и распознавания именованных сущностей. Извлечение отношений и автоматическое построение графов знаний из юридических корпусов. Дообучение моделей на русской морфологии и доменной терминологии (банковская, медицинская, государственная). Специфические русскоязычные галлюцинации и методы их подавления через self‑correction.

День 3. Оценка качества и контур человеческой проверки.

Переход от классических метрик (BLEU, ROUGE) к LLM‑as‑a‑judge с оценкой согласования, падежных форм и стиля. Синтетическая генерация русскоязычных датасетов с помощью моделей‑учителей. Согласование моделей с культурными и законодательными нормами. Построение пайплайна экспертной оценки и его сопоставление с автоматическими метриками на доменной задаче слушателя.

Записаться на курс «AI08 - Advanced Russian & Multilingual NLP»

Наши партнеры

Antcolony
Huawei
Checkpoint
Asterisk
Juniper
Cisco
Wireshark
Paloalto
IBM
Fortinet
VMWare