Контекст
У меня в продакшене работает ~6 AI-интеграций. Все на Claude — Haiku для high-volume, Sonnet для сложного reasoning. GPT-4 использую только для embeddings (text-embedding-3) и TTS. Gemini — пока экспериментирую. Это не идеологический выбор, а результат полугода тестов.
Что мне нравится в Claude
Меньше галлюцинаций на конкретных задачах. Когда я говорю «если поле не указано — верни null», Claude действительно возвращает null. GPT-4 чаще пытается «помочь» и достроить разумное значение, что в production — баг.
XML-структурированный output работает стабильнее, чем JSON. Это особенность Anthropic — они обучали модель на XML, и она в нём чувствует себя комфортнее. JSON тоже умеет, но XML надёжнее для сложных вложенностей.
Prompt caching — киллер-фича для high-volume сценариев. Фиксированная часть промпта (правила, примеры) кешируется и стоит в разы меньше. На моей нагрузке экономия — порядок.
Где GPT всё ещё лучше
Embeddings — text-embedding-3-small/large держат держат пальму. У Cohere качество примерно такое же, у Anthropic своих embeddings нет. TTS — у OpenAI приличный для черновиков, ElevenLabs дороже но качественнее.
Vision на скриншотах UI — GPT-4o стабильнее распознаёт элементы интерфейса. Claude Sonnet 4.5 догоняет, но в моих тестах ещё отстаёт.
Что не работает у обоих
Длинные таблицы с числами. Любая LLM ошибается в арифметике на 5+ числах. Решение — выносить численные вычисления в код, использовать LLM только для интерпретации результата.
Русский язык чуть хуже английского у обоих. Это эмпирически — на длинных промптах модель «сбивается» на английскую структуру. Лечится явной инструкцией «отвечай на русском» в каждом запросе.
Итоговый стек
Claude Haiku 4.5 — основная рабочая лошадка. Claude Sonnet/Opus — для сложного reasoning. OpenAI — embeddings и TTS. Gemini — multimodal-эксперименты. GPT-4 — только если у клиента уже подписка на OpenAI.