Контекст

У меня в продакшене работает ~6 AI-интеграций. Все на Claude — Haiku для high-volume, Sonnet для сложного reasoning. GPT-4 использую только для embeddings (text-embedding-3) и TTS. Gemini — пока экспериментирую. Это не идеологический выбор, а результат полугода тестов.

Что мне нравится в Claude

Меньше галлюцинаций на конкретных задачах. Когда я говорю «если поле не указано — верни null», Claude действительно возвращает null. GPT-4 чаще пытается «помочь» и достроить разумное значение, что в production — баг.

XML-структурированный output работает стабильнее, чем JSON. Это особенность Anthropic — они обучали модель на XML, и она в нём чувствует себя комфортнее. JSON тоже умеет, но XML надёжнее для сложных вложенностей.

Prompt caching — киллер-фича для high-volume сценариев. Фиксированная часть промпта (правила, примеры) кешируется и стоит в разы меньше. На моей нагрузке экономия — порядок.

Где GPT всё ещё лучше

Embeddings — text-embedding-3-small/large держат держат пальму. У Cohere качество примерно такое же, у Anthropic своих embeddings нет. TTS — у OpenAI приличный для черновиков, ElevenLabs дороже но качественнее.

Vision на скриншотах UI — GPT-4o стабильнее распознаёт элементы интерфейса. Claude Sonnet 4.5 догоняет, но в моих тестах ещё отстаёт.

Что не работает у обоих

Длинные таблицы с числами. Любая LLM ошибается в арифметике на 5+ числах. Решение — выносить численные вычисления в код, использовать LLM только для интерпретации результата.

Русский язык чуть хуже английского у обоих. Это эмпирически — на длинных промптах модель «сбивается» на английскую структуру. Лечится явной инструкцией «отвечай на русском» в каждом запросе.

Итоговый стек

Claude Haiku 4.5 — основная рабочая лошадка. Claude Sonnet/Opus — для сложного reasoning. OpenAI — embeddings и TTS. Gemini — multimodal-эксперименты. GPT-4 — только если у клиента уже подписка на OpenAI.