Малые языковые модели

Что такое SLM?

Малая языковая модель — это нейросеть на базе архитектуры Transformer, имеющая значительно меньше параметров (от миллионов до нескольких миллиардов) в отличие от большой языковой модели (LLM).

Ключевое отличие — SLM жертвует широтой обобщения ради эффективности.

Преимущества — быстрая работа (низкая задержка), меньшее потребление памяти и возможность развертывания на пограничных (edge) устройствах.

Технологии создания SLM

Модели создаются с помощью трех основных методов сжатия:

Квантование (Quantization) — уменьшение количества бит, используемых для хранения значений весов (например, переход с 32-бит на 8-бит), что делает модель легче без существенной потери точности.
Прунинг (Pruning) — удаление «лишних» нейронов или параметров, которые мало влияют на предсказания.
Дистилляция (Distillation) — процесс, при котором большая «модель-учитель» передает свои знания меньшей «модели-ученику».

Сравнение SLM и LLM

Характеристика,SLM,LLM Параметры,Миллионы,Миллиарды Память (VRAM),Минимальная,Значительная Задержка,Ультра-низкая,Заметно выше Точность,Умеренная,Высокая Стоимость обучения,Доступная,Высокая Применение,Мобильные/edge задачи,Облачные системы

Характеристика	SLM	LLM
Параметры	Миллионы	Миллиарды
Память (VRAM)	Минимальная	Значительная
Задержка	Ультра-низкая	Заметно выше
Точность	Умеренная	Высокая
Стоимость обучения	Доступная	Высокая
Применение	Мобильные / edge задачи	Облачные системы

Стратегии использования в ИИ-агентах

Предлагается 4 стратегии для эффективной работы:

Интеллектуальная маршрутизация: простые задачи (поддержка, извлечение данных) направляются в SLM, сложные — в LLM.
Сотрудничество в конвейере: SLM делает черновик или фильтрует данные, а LLM завершает работу (например, проверяет галлюцинации).
Параллельная верификация: SLM быстро генерирует ответ, а LLM одновременно его проверяет и корректирует.
Условная активация: LLM подключается только если уверенность SLM в своем ответе ниже определенного порога.

Кейсы и примеры применения

Конфиденциальность (On-Premise): В медицине (сортировка пациентов) и юриспруденции (анализ контрактов) данные не покидают защищенный контур компании.
Высокий объем / Низкая стоимость: Обработка чеков и счетов (например, Microsoft Phi-3 может делать это с точностью 99% при 1% стоимости от затрат на GPT-4).
Узкая специализация: Кодинг-ассистенты, обученные на специфическом стиле компании, или классификация тикетов службы поддержки.

Реальные примеры компаний

Uber: использует SLM в своих агентских RAG-системах.
Microsoft: тестирует SLM для управления цепочками поставок в облаке и взаимодействия с приложениями через естественный язык.
OpenAI: также выпускает руководства по созданию агентов с использованием таких моделей.

Заключение

По прогнозам Gartner, к 2027 году организации будут использовать узкоспециализированные малые модели в три раза чаще, чем универсальные LLM.