Главные новости AI за неделю: GPT-5.2, Codex, MCP и голосовой Gemini

Обзор главных событий в мире AI: GPT-5.2 стал в 390 раз дешевле, Codex помогает писать 85% кода, MCP переходит в Linux Foundation, выходит Mistral DevStral 2 и Gemini Native Audio революционизирует голосовое взаимодействие.

Представь, что нейросеть, которая вчера была “только для крупных компаний”, сегодня становится инструментом на каждый день — потому что цена падает, а качество растёт. За эту неделю насыпали столько новинок, что это уже похоже не на “апдейты”, а на смену эпохи. Поехали по главному — быстро и по делу.

1. Модели резко дешевеют

Первое и самое важное: модели резко дешевеют. В одном из примеров сравнения режим GPT-5.2 “X High” показывает около 90,5% на бенчмарке при цене примерно $11 за задачу, тогда как раньше похожий уровень решения стоил порядка $4500 за задачу — то есть речь про удешевление примерно в 390 раз. Это ключевой сигнал: ИИ перестаёт быть “дорогой игрушкой” и становится реальным рабочим инструментом для задач уровня “таблицы, финмодели, презентации, анализ”.

2. Кодинг выходит на новый уровень

OpenAI говорит о реальном “промышленном” использовании Codex: за 8 дней сделали Android-приложение SORA, где 4 инженера с помощью Codex написали около 85% кода. Там же звучат оценки масштаба — порядка 5 млрд токенов и примерно $40k через API. Смысл не в цифрах, а в тренде: скорость сборки продукта стала другой — идея → прототип → релиз намного быстрее.

3. Стандарты и агенты

MCP передали в Linux Foundation, а параллельно создают Agentica Foundation с участием крупных игроков индустрии. Это важнее, чем кажется: когда появляется стандарт, экосистема начинает собираться как конструктор — агенты, инструменты и сервисы соединяются проще, быстрее и стабильнее.

4. Open-source для разработки

Вышел Mistral DevStral 2: две модели 123B и 24B под лицензией Apache 2.0, плюс удобный CLI-агент. Это означает, что рынок будет всё сильнее делиться на “закрытые топ-модели” и “открытые мощные модели”, которые можно запускать и встраивать куда угодно.

5. Голос и аудио — рывок Google

Улучшили TTS и особенно Gemini Native Audio: идея в том, что модель не просто “озвучивает текст”, а слушает и отвечает голосом, лучше держит диалог, точнее выполняет инструкции и может работать с инструментами. А ещё прокачивают сценарий “живого переводчика” — разговор через наушники с переводом в реальном времени, как будто вы говорите на одном языке.

6. Исследовательские агенты идут в прод

Deep Research от Gemini появляется в API — это важно, потому что теперь его можно встраивать в продукты и ботов, где агент сам ищет, сравнивает, структурирует и делает выводы. Там же фигурирует результат 46,4% на Humanity Last Exam — как маркер уровня “агента-исследователя”.

Коротко о других новинках

  • Google Disco на Gemini 3 — инструмент, который умеет делать веб-приложения из открытых вкладок браузера
  • Первая LLM в космосе — команда StarCloud запускала обучение на NVIDIA H100 и делали inference с GEMMA
  • Qwen обгоняет Llama по загрузкам на HuggingFace (385M vs 346M) — китайские модели становятся массовыми
  • Disney + OpenAI — потенциальный ход в сторону работы с персонажами и контентом
  • Adobe в ChatGPT — добавлены инструменты Photoshop/Express/Acrobat (UX пока сыроват)

Итог недели

Чат GPT-5.2 и конкуренты двигают экономику ИИ, Codex ускоряет разработку, MCP и Agentica Foundation толкают стандарты для агентов, Mistral DevStral 2 усиливает open-source, а Gemini Native Audio превращает голос в полноценный интерфейс.

Понравилась статья? Поделиться с друзьями:
Фишки AI технологий
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: