Суперінтелект на горизонті: аналіз презентації Grok 4

Маск зробив дуже сильну презентацію Grok 4 — наразі найпотужнішої моделі штучного інтелекту згідно з ключовими тестами. Це значно перевершило очікування, якщо говорити відверто. У багатьох найважливіших тестах модель вийшла в лідери з суттєвим відривом — не на 1–2%, а значно більше.

Бандура Володимир

керуючий партнер
AIwiser.ai

Це перша їхня модель, яка справді викликає інтерес у багатьох фахівців. Вони інвестували у 10 разів більше обчислювальних ресурсів у базову модель порівняно з Grok 2, і ще у 10 разів більше — у додаткове навчання з підкріпленням (reinforcement learning) порівняно з Grok 3.

Перш за все, вони зробили великий акцент на результатах в Останньому Екзамені Людства — надзвичайно складному тесті, що охоплює передові наукові знання. Його складено понад 1000 експертами з 500 наукових інституцій із десятків країн (детальніше про тест — за посиланням). У тесті представлені як точні науки, так і мовознавство (включно з давніми мовами), завдання з програмування та багато іншого — включно з дуже складними задачами.

Маск справедливо зауважив, що знайти людину, яка вирішить хоча б 5% задач з цього тесту (навіть у межах своєї спеціалізації), буде надзвичайно важко. Тим більше складно уявити когось, хто зможе розв’язувати задачі рівня кандидата наук чи складніші — в десятках різних дисциплін, як це передбачено в тесті.

Цей момент він представив дуже цікаво

Наразі, на думку Маска, ми перебуваємо на чіткій траєкторії до повного «насичення» будь-яких тестів, створених людьми — тобто таких, де і запитання, і правильна відповідь сформульовані самими людьми. Про що писав раніше.
Наступним кроком стане зворотний зв’язок для моделей не від людей, а від самої реальності. Наприклад, якщо ШІ розробляє новий двигун для ракети, то критерієм успіху буде не проходження формального тесту, а те, чи виконає цей двигун свою реальну функцію.

Маск зазначив, що темп прогресу його лякає: «Scary good».
Він очікує, що вже цього року, максимум наступного, ШІ зможе пропонувати нові технологічні рішення — тобто прикладні інженерні розробки на основі вже відомої фізики та інших наукових дисциплін.

І вже наступного року, на його думку, стане можливим використання ШІ для здійснення наукових відкриттів — тобто для відкриття нової фізики на основі перших принципів.

Також, на прикладі результатів в Останньому Екзамені Людства, Маск вважає, що ШІ вже став суперінтелектом, принаймні у вимірі академічної науки — тієї, що представлена в текстах і вже є відомою. Наступним етапом має стати генерація нових рішень.

Окремо Маск наголосив, що навіть «гола модель» (тобто без доступу до зовнішніх інструментів) показує значно кращий результат в Останньому Екзамені Людства — 27%, порівняно з 20–21% у o3 та Gemini 2.5 Pro. А з використанням інструментів результат перевищує 40%. Причому Маск зауважив, що ці інструменти — дуже примітивні. По суті, як і в інших моделей: інтернет-пошук, виконання коротких програм (створених самою моделлю) для вирішення задач — наприклад, для точних математичних розрахунків тощо.

І от тут Маск оголосив, що вони планують надати Grok потужні інструменти — ті самі, які використовуються в Tesla і SpaceX для інженерних розробок. За його словами, фізичні процеси там симулюють настільки точно, що коли результати експериментів відрізняються від результатів симуляції, спершу перевіряють, в чому помилка експерименту.

Це відкриває справді цікаву перспективу. Загалом чітко видно стратегічні фокуси команди Grok. Варто зазначити, що ці фокуси справді сильні й оригінальні. За всієї можливої антипатії до Маска, слід визнати: він уміє формулювати дуже потужну стратегію для своїх проєктів.

Конкретно Grok фокусується на наступному:

Ідеологічно — пошук правди, мінімізація цензури, об’єктивність, орієнтація на факти, а не на ідеологію чи політичну кон’юнктуру. Маск вважає, що це — оптимальна стратегія виживання людства в епоху сильного ШІ. І що створення моделей, які вміють брехати (в інтересах певної ідеології), становить велику небезпеку.
Практично — орієнтація на точні науки, вирішення складних наукових та інженерних задач. Звідси, зокрема, й величезний прогрес в Останньому Екзамені Людства.

Якщо Ілон Маск додасть до цього ще якісні інтеграції з професійними інженерними інструментами, про що також йшлося на презентації, практична корисність Grok може стати на порядок вищою за інші «чатики», які вже сприйматимуться більше як «тамагочі» — для розваг і перекладу текстів.

Цікавий іще один момент. Вони також представили Grok Heavy — доволі цікава назва, ніби ракета. І це дуже сильне рішення. Йдеться про спосіб використання Grok як багатоагентної системи. Вони не розкрили деталей, як саме це працює, однак зазначили, що у них — оригінальний підхід до оцінки результатів.

Раніше було представлено низку досліджень, у яких пропонувався багатоагентний підхід із majority vote, тобто правильна відповідь визначалася як та, до якої прийшла більшість агентів.
Натомість команда Grok зазначає, що вони можуть обрати правильний результат, навіть якщо до нього дійшов лише один агент.

І, схоже, це дуже потужна техніка. З її використанням, у тому ж Останньому Екзамені Людства, Grok вже зараз демонструє результат у 51% (!). Лише кілька тижнів тому я писав, що така точність — це амбітна мета на кінець 2025 року. Нагадаю, що конкуренти наразі показують 20–21%.

Але Grok досягає цього вже зараз, а до кінця 2025-го плануються ще низка суттєвих покращень.
Цікаво, що техніка Grok Heavy вже доступна в їхній новій — найдорожчій — підписці за $300 на місяць. Тобто якщо у вас є надзвичайно складні інженерні або наукові задачі, її варто спробувати.

До речі, я навіть не пишу про інші тести. Наприклад, у завданнях Математичної олімпіади США 2025 року Grok банально показує 100% — вирішує всі задачі. Ще кілька років тому моделі не могли розв’язати жодної. А серед студентів США — лише одиниці (і то не щороку) здатні розв’язати всі задачі цієї олімпіади.

Водночас, у Grok на сьогодні є й слабке місце — це порівняно слабкі можливості в аналізі зображень, особливо порівняно з конкурентами. Я можу це підтвердити: якраз тестував його на аналізі графіків — він гірше за o3 чи Gemini від Google розпізнавав написи та міркував про деталі. Але вони це розуміють і обіцяють суттєве покращення найближчим часом.

Загалом команда Grok оголосила такі плани на найближчі кілька місяців:

Серпень 2025 — запуск нового, найпотужнішого агента для написання програмного коду.
Вересень 2025 — поява нової мультимодальної моделі (яка має вирішити проблему аналізу зображень).
Жовтень 2025 — вихід нової моделі, яка найкраще розумітиме та створюватиме відео. Цей аспект особливо важливий, враховуючи, що Tesla має величезні масиви відео- та фотоданих із реального світу. Це може вивести на абсолютно новий рівень — особливо в контексті робототехніки та вирішення задач у фізичному світі.

Також були представлені нові можливості голосової взаємодії з Grok. Виглядають дуже переконливо — живі інтонації, шепіт, сміх, навіть спів. Те, що з незрозумілих причин було заблоковано в OpenAI. І загалом — голосові відповіді звучать швидше та природніше.

Ось така презентація. Можна сприймати це як перший промінь суперінтелекту — ще не світанок, але вже передранкова зоря.

Також модель відсьогодні доступна через API — ми вже тестуємо її в одному з наших додатків, де потрібен надзвичайно «розумний» ШІ.

БІЛЬШЕ

КОРИСНОСТЕЙ

t.me/progresylni

22.07.2025

Did you like this article?