В начале декабря прошлого года фонд OpenAGI сделал крупный шаг — выпустил базовую модель под названием Lux. Эта штука действительно интересная и позиционируется как первое открытое решение, специально созданное для того, чтобы ИИ научился «кликать мышкой и стучать по клавиатуре, как человек».
Проще говоря, раньше даже самый умный ИИ мог работать только через API-интерфейсы, а теперь Lux способен напрямую управлять интерфейсами программ. Они протестировали его на 300 повседневных задачах, и результат впечатлил: на отраслевом бенчмарке Online-Mind2Web Lux показал 83,6%.
Для сравнения, чтобы понять уровень — CUA от одного крупного поискового гиганта набрал 69%, Operator от известной компании по чат-ботам — 61,3%, а даже Claude Sonnet, продвигаемый как ИИ-помощник, не смог превзойти этот результат.
Open source действительно многое меняет — теперь больше разработчиков могут попробовать свои силы в направлении «автоматической работы ИИ за компьютером».
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
8 Лайков
Награда
8
6
Репост
Поделиться
комментарий
0/400
LiquidatedTwice
· 12ч назад
Чёрт, эти данные по Lux настоящие? 83,6% — это прямое доминирование над Claude? Как-то уж слишком невероятно.
Посмотреть ОригиналОтветить0
PuzzledScholar
· 12ч назад
83,6% — это немного пугающая цифра, кажется, что ИИ действительно начинает "работать сам по себе".
---
Открытый исходный код — это настоящее благо для энтузиастов, раньше всё это было намертво закрыто крупными компаниями.
---
Постой, Lux может напрямую управлять интерфейсом? Тогда чем мне зарабатывать на жизнь?
---
Claude Sonnet был разгромлен — вот это неловко.
---
Можно ли доверять результатам тестирования в 300 сценариях? Мне почему-то кажется, что там не всё чисто.
---
Всё-таки нужно смотреть на открытые решения, коммерческие ИИ становятся всё более нелепыми.
---
Щёлкать мышкой и стучать по клавиатуре звучит просто, но реализовать это на таком уровне — это круто.
---
Если эта штука станет зрелой, то много рутинной работы просто исчезнет.
Посмотреть ОригиналОтветить0
SmartContractRebel
· 13ч назад
83,6% — это действительно невероятная цифра, прямо уничтожает все эти закрытые решения от крупных компаний.
Опенсорсная версия смогла превзойти даже Claude — о чём это говорит? О том, что большие корпорации, возможно, филонят, ха-ха.
Больше всего мне интересно, достаточно ли 300 рабочих сценариев, чтобы считать тест реальным... Похоже, тут только время покажет.
Кстати, если такие AI-системы, автоматически управляющие компьютером, станут массовыми, нам, простым работягам, грозит безработица?
Lux — отличное название, звучит очень "светло", как намёк на то, что опенсорс спасёт мир, да?
В этот раз фонд действительно не преувеличивал — цифры говорят сами за себя, гораздо убедительнее, чем PPT на официальных презентациях.
Кажется, AI-бенчмарки 2024 года скоро превратятся в шутку — Lux появился и сразу же поменял расстановку сил.
Посмотреть ОригиналОтветить0
CommunityWorker
· 13ч назад
83,6% напрямую задавили остальных, действительно ли open source настолько крут, почему-то мне кажется, что это немного преувеличено
Посмотреть ОригиналОтветить0
SandwichVictim
· 13ч назад
83,6% — эти данные действительно впечатляют, прямая доминация над Gemini и Claude, неужели open-source модели начинают брать реванш?
---
Это действительно победа open-source сообщества, наконец-то кто-то это реализовал.
---
Погодите, прямо управлять интерфейсом — это же фактически финальная эволюция RPA, если это распространится, становится немного страшно.
---
Сильнее, чем Claude Sonnet? Мне кажется, это немного преувеличено.
---
Да здравствует open-source, пора бы уже разрушить монополию крупных компаний.
---
Просто кликать мышкой и печатать на клавиатуре... если это действительно заработает, многим профессиям придется несладко.
Посмотреть ОригиналОтветить0
alpha_leaker
· 13ч назад
83,6% напрямую уделывает Gemini и Claude, это открытый исходный код просто зверь, наконец-то кто-то реализовал управление компьютером с помощью ИИ.
В начале декабря прошлого года фонд OpenAGI сделал крупный шаг — выпустил базовую модель под названием Lux. Эта штука действительно интересная и позиционируется как первое открытое решение, специально созданное для того, чтобы ИИ научился «кликать мышкой и стучать по клавиатуре, как человек».
Проще говоря, раньше даже самый умный ИИ мог работать только через API-интерфейсы, а теперь Lux способен напрямую управлять интерфейсами программ. Они протестировали его на 300 повседневных задачах, и результат впечатлил: на отраслевом бенчмарке Online-Mind2Web Lux показал 83,6%.
Для сравнения, чтобы понять уровень — CUA от одного крупного поискового гиганта набрал 69%, Operator от известной компании по чат-ботам — 61,3%, а даже Claude Sonnet, продвигаемый как ИИ-помощник, не смог превзойти этот результат.
Open source действительно многое меняет — теперь больше разработчиков могут попробовать свои силы в направлении «автоматической работы ИИ за компьютером».