Ссылка на автора документа

Что такое SLM?

Малая языковая модель — это нейросеть на базе архитектуры Transformer, имеющая значительно меньше параметров (от миллионов до нескольких миллиардов) в отличие от большой языковой модели (LLM).

Ключевое отличие — SLM жертвует широтой обобщения ради эффективности.

Преимущества — быстрая работа (низкая задержка), меньшее потребление памяти и возможность развертывания на пограничных (edge) устройствах.

Технологии создания SLM

Модели создаются с помощью трех основных методов сжатия:

  • Квантование (Quantization) — уменьшение количества бит, используемых для хранения значений весов (например, переход с 32-бит на 8-бит), что делает модель легче без существенной потери точности.
  • Прунинг (Pruning) — удаление «лишних» нейронов или параметров, которые мало влияют на предсказания.
  • Дистилляция (Distillation) — процесс, при котором большая «модель-учитель» передает свои знания меньшей «модели-ученику».

Сравнение SLM и LLM

Характеристика,SLM,LLM Параметры,Миллионы,Миллиарды Память (VRAM),Минимальная,Значительная Задержка,Ультра-низкая,Заметно выше Точность,Умеренная,Высокая Стоимость обучения,Доступная,Высокая Применение,Мобильные/edge задачи,Облачные системы

ХарактеристикаSLMLLM
ПараметрыМиллионыМиллиарды
Память (VRAM)МинимальнаяЗначительная
ЗадержкаУльтра-низкаяЗаметно выше
ТочностьУмереннаяВысокая
Стоимость обученияДоступнаяВысокая
ПрименениеМобильные / edge задачиОблачные системы

Стратегии использования в ИИ-агентах

Предлагается 4 стратегии для эффективной работы:

  1. Интеллектуальная маршрутизация: простые задачи (поддержка, извлечение данных) направляются в SLM, сложные — в LLM.
  2. Сотрудничество в конвейере: SLM делает черновик или фильтрует данные, а LLM завершает работу (например, проверяет галлюцинации).
  3. Параллельная верификация: SLM быстро генерирует ответ, а LLM одновременно его проверяет и корректирует.
  4. Условная активация: LLM подключается только если уверенность SLM в своем ответе ниже определенного порога.

Кейсы и примеры применения

  1. Конфиденциальность (On-Premise): В медицине (сортировка пациентов) и юриспруденции (анализ контрактов) данные не покидают защищенный контур компании.
  2. Высокий объем / Низкая стоимость: Обработка чеков и счетов (например, Microsoft Phi-3 может делать это с точностью 99% при 1% стоимости от затрат на GPT-4).
  3. Узкая специализация: Кодинг-ассистенты, обученные на специфическом стиле компании, или классификация тикетов службы поддержки.

Реальные примеры компаний

  • Uber: использует SLM в своих агентских RAG-системах.
  • Microsoft: тестирует SLM для управления цепочками поставок в облаке и взаимодействия с приложениями через естественный язык.
  • OpenAI: также выпускает руководства по созданию агентов с использованием таких моделей.

Заключение

По прогнозам Gartner, к 2027 году организации будут использовать узкоспециализированные малые модели в три раза чаще, чем универсальные LLM.