2025-12-05 07:14:19

В начале декабря прошлого года фонд OpenAGI сделал крупный шаг — выпустил базовую модель под названием Lux. Эта штука действительно интересная и позиционируется как первое открытое решение, специально созданное для того, чтобы ИИ научился «кликать мышкой и стучать по клавиатуре, как человек».

Проще говоря, раньше даже самый умный ИИ мог работать только через API-интерфейсы, а теперь Lux способен напрямую управлять интерфейсами программ. Они протестировали его на 300 повседневных задачах, и результат впечатлил: на отраслевом бенчмарке Online-Mind2Web Lux показал 83,6%.

Для сравнения, чтобы понять уровень — CUA от одного крупного поискового гиганта набрал 69%, Operator от известной компании по чат-ботам — 61,3%, а даже Claude Sonnet, продвигаемый как ИИ-помощник, не смог превзойти этот результат.

Open source действительно многое меняет — теперь больше разработчиков могут попробовать свои силы в направлении «автоматической работы ИИ за компьютером».

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
6
Репост
Поделиться

комментарий

0/400

LiquidatedTwice

· 12ч назад

Чёрт, эти данные по Lux настоящие? 83,6% — это прямое доминирование над Claude? Как-то уж слишком невероятно.

Посмотреть ОригиналОтветить0

PuzzledScholar

· 12ч назад

83,6% — это немного пугающая цифра, кажется, что ИИ действительно начинает "работать сам по себе". --- Открытый исходный код — это настоящее благо для энтузиастов, раньше всё это было намертво закрыто крупными компаниями. --- Постой, Lux может напрямую управлять интерфейсом? Тогда чем мне зарабатывать на жизнь? --- Claude Sonnet был разгромлен — вот это неловко. --- Можно ли доверять результатам тестирования в 300 сценариях? Мне почему-то кажется, что там не всё чисто. --- Всё-таки нужно смотреть на открытые решения, коммерческие ИИ становятся всё более нелепыми. --- Щёлкать мышкой и стучать по клавиатуре звучит просто, но реализовать это на таком уровне — это круто. --- Если эта штука станет зрелой, то много рутинной работы просто исчезнет.

Посмотреть ОригиналОтветить0

SmartContractRebel

· 13ч назад

83,6% — это действительно невероятная цифра, прямо уничтожает все эти закрытые решения от крупных компаний. Опенсорсная версия смогла превзойти даже Claude — о чём это говорит? О том, что большие корпорации, возможно, филонят, ха-ха. Больше всего мне интересно, достаточно ли 300 рабочих сценариев, чтобы считать тест реальным... Похоже, тут только время покажет. Кстати, если такие AI-системы, автоматически управляющие компьютером, станут массовыми, нам, простым работягам, грозит безработица? Lux — отличное название, звучит очень "светло", как намёк на то, что опенсорс спасёт мир, да? В этот раз фонд действительно не преувеличивал — цифры говорят сами за себя, гораздо убедительнее, чем PPT на официальных презентациях. Кажется, AI-бенчмарки 2024 года скоро превратятся в шутку — Lux появился и сразу же поменял расстановку сил.

Посмотреть ОригиналОтветить0

CommunityWorker

· 13ч назад

83,6% напрямую задавили остальных, действительно ли open source настолько крут, почему-то мне кажется, что это немного преувеличено

Посмотреть ОригиналОтветить0

SandwichVictim

· 13ч назад

83,6% — эти данные действительно впечатляют, прямая доминация над Gemini и Claude, неужели open-source модели начинают брать реванш? --- Это действительно победа open-source сообщества, наконец-то кто-то это реализовал. --- Погодите, прямо управлять интерфейсом — это же фактически финальная эволюция RPA, если это распространится, становится немного страшно. --- Сильнее, чем Claude Sonnet? Мне кажется, это немного преувеличено. --- Да здравствует open-source, пора бы уже разрушить монополию крупных компаний. --- Просто кликать мышкой и печатать на клавиатуре... если это действительно заработает, многим профессиям придется несладко.

Посмотреть ОригиналОтветить0

alpha_leaker