В начале декабря прошлого года фонд OpenAGI сделал крупный шаг — выпустил базовую модель под названием Lux. Эта штука действительно интересная и позиционируется как первое открытое решение, специально созданное для того, чтобы ИИ научился «кликать мышкой и стучать по клавиатуре, как человек».



Проще говоря, раньше даже самый умный ИИ мог работать только через API-интерфейсы, а теперь Lux способен напрямую управлять интерфейсами программ. Они протестировали его на 300 повседневных задачах, и результат впечатлил: на отраслевом бенчмарке Online-Mind2Web Lux показал 83,6%.

Для сравнения, чтобы понять уровень — CUA от одного крупного поискового гиганта набрал 69%, Operator от известной компании по чат-ботам — 61,3%, а даже Claude Sonnet, продвигаемый как ИИ-помощник, не смог превзойти этот результат.

Open source действительно многое меняет — теперь больше разработчиков могут попробовать свои силы в направлении «автоматической работы ИИ за компьютером».
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
0/400
LiquidatedTwicevip
· 12ч назад
Чёрт, эти данные по Lux настоящие? 83,6% — это прямое доминирование над Claude? Как-то уж слишком невероятно.
Посмотреть ОригиналОтветить0
PuzzledScholarvip
· 12ч назад
83,6% — это немного пугающая цифра, кажется, что ИИ действительно начинает "работать сам по себе". --- Открытый исходный код — это настоящее благо для энтузиастов, раньше всё это было намертво закрыто крупными компаниями. --- Постой, Lux может напрямую управлять интерфейсом? Тогда чем мне зарабатывать на жизнь? --- Claude Sonnet был разгромлен — вот это неловко. --- Можно ли доверять результатам тестирования в 300 сценариях? Мне почему-то кажется, что там не всё чисто. --- Всё-таки нужно смотреть на открытые решения, коммерческие ИИ становятся всё более нелепыми. --- Щёлкать мышкой и стучать по клавиатуре звучит просто, но реализовать это на таком уровне — это круто. --- Если эта штука станет зрелой, то много рутинной работы просто исчезнет.
Посмотреть ОригиналОтветить0
SmartContractRebelvip
· 13ч назад
83,6% — это действительно невероятная цифра, прямо уничтожает все эти закрытые решения от крупных компаний. Опенсорсная версия смогла превзойти даже Claude — о чём это говорит? О том, что большие корпорации, возможно, филонят, ха-ха. Больше всего мне интересно, достаточно ли 300 рабочих сценариев, чтобы считать тест реальным... Похоже, тут только время покажет. Кстати, если такие AI-системы, автоматически управляющие компьютером, станут массовыми, нам, простым работягам, грозит безработица? Lux — отличное название, звучит очень "светло", как намёк на то, что опенсорс спасёт мир, да? В этот раз фонд действительно не преувеличивал — цифры говорят сами за себя, гораздо убедительнее, чем PPT на официальных презентациях. Кажется, AI-бенчмарки 2024 года скоро превратятся в шутку — Lux появился и сразу же поменял расстановку сил.
Посмотреть ОригиналОтветить0
CommunityWorkervip
· 13ч назад
83,6% напрямую задавили остальных, действительно ли open source настолько крут, почему-то мне кажется, что это немного преувеличено
Посмотреть ОригиналОтветить0
SandwichVictimvip
· 13ч назад
83,6% — эти данные действительно впечатляют, прямая доминация над Gemini и Claude, неужели open-source модели начинают брать реванш? --- Это действительно победа open-source сообщества, наконец-то кто-то это реализовал. --- Погодите, прямо управлять интерфейсом — это же фактически финальная эволюция RPA, если это распространится, становится немного страшно. --- Сильнее, чем Claude Sonnet? Мне кажется, это немного преувеличено. --- Да здравствует open-source, пора бы уже разрушить монополию крупных компаний. --- Просто кликать мышкой и печатать на клавиатуре... если это действительно заработает, многим профессиям придется несладко.
Посмотреть ОригиналОтветить0
alpha_leakervip
· 13ч назад
83,6% напрямую уделывает Gemini и Claude, это открытый исходный код просто зверь, наконец-то кто-то реализовал управление компьютером с помощью ИИ.
Посмотреть ОригиналОтветить0
  • Горячее на Gate FunПодробнее
  • РК:$3.51KДержатели:2
    0.09%
  • РК:$3.47KДержатели:1
    0.00%
  • РК:$3.48KДержатели:1
    0.00%
  • РК:$3.51KДержатели:1
    0.00%
  • РК:$3.54KДержатели:1
    0.00%
  • Закрепить