На вихідних Meta представила дві нові моделі штучного інтелекту Llama 4 – легку Scout і середньоформатну Maverick. Компанія заявила, що ці моделі перевершують інші відомі моделі, такі як GPT-4o та Gemini 2.0 Flash, в різних тестах. Проте виявилося, що статистика, надана Meta, може бути марнотратною, повідомляє The Verge.
У пресрелізі Meta підкреслила успішність моделей у рейтингу LMArena, де користувачі порівнюють і голосують за кращі ШІ-моделі. Maverick виявилася на другому місці з високим ELO-рейтингом, але виявилося, що тестувалася експериментальна версія моделі, спеціально адаптована для чат-режиму.
Користувачі виявили, що Meta не вказала спочатку, що тестувалася саме ця версія моделі. LMArena звинуватила Meta у недоліку в інформації від постачальників ШІ-моделей і почала оновлювати правила, щоб уникнути подібних ситуацій у майбутньому. Компанія вважає, що коли постачальники можуть надавати спеціально налаштовані версії для тестування, а потім випускати інші для широкої аудиторії, рейтинги, як LMArena, стають менш значущими.
Нові моделі штучного інтелекту від Meta опинились в центрі скандалу
