Ф'ючерси
Сотні контрактів розраховані в USDT або BTC
TradFi
Золото
Торгуйте глобальними традиційними активами за допомогою USDT в одному місці
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Запуск ф'ючерсів
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Беріть участь у подіях, щоб виграти щедрі винагороди
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Бали Alpha
Торгуйте ончейн-активами і насолоджуйтеся аірдроп-винагородами!
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Купуйте дешево і продавайте дорого, щоб отримати прибуток від коливань цін
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Індивідуальне управління капіталом сприяє зростанню ваших активів
Управління приватним капіталом
Індивідуальне управління активами для зростання ваших цифрових активів
Квантовий фонд
Найкраща команда з управління активами допоможе вам отримати прибуток без клопоту
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
New
Жодної примусової ліквідації до дати погашення — прибуток із плечем без зайвих ризиків
Випуск GUSD
Використовуйте USDT/USDC для випуску GUSD з дохідністю на рівні казначейських облігацій
Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney?
Автор: Сінь Чжиюань
Як тільки Google StyleDrop з’явився, він миттєво охопив Інтернет.
Враховуючи зоряне небо Ван Гога, штучний інтелект втілюється як Майстер Ван Гог, і після найвищого рівня розуміння цього абстрактного стилю він створив незліченну кількість подібних картин.
Інший стиль мультфільму, об’єкти, які я хочу намалювати, набагато миліші.
Навіть він може точно контролювати деталі та створювати оригінальний стиль логотипу.
Чарівність StyleDrop полягає в тому, що лише одне зображення потрібне як еталон, яким би складним не був художній стиль, його можна деконструювати та відтворити.
Користувачі мережі сказали, що це такий інструмент штучного інтелекту, який усуває дизайнерів.
Дослідження вибуху StyleDrop є останнім продуктом дослідницької групи Google.
Адреса паперу:
Тепер за допомогою таких інструментів, як StyleDrop, ви можете не тільки малювати більш контрольовано, але й виконувати раніше неймовірну тонку роботу, наприклад малювати логотипи.
Навіть вчені Nvidia назвали це «феноменальним» результатом.
Майстер налаштування
Автор статті зазначив, що джерелом натхнення для StyleDrop є Eyedropper (інструмент для поглинання/вибору кольорів).
Подібним чином StyleDrop також сподівається, що ви зможете швидко й без зусиль «вибрати» стиль із одного/кількох еталонних зображень, щоб створити зображення цього стилю.
У лінивця може бути 18 стилів:
Панда має 24 стилі:
Акварель, яку малювали діти, відмінно контролювався StyleDrop, і навіть зморшки на папері були відновлені.
Треба сказати, що це занадто сильно.
Існує також StyleDrop, що стосується дизайну англійських літер у різних стилях:
Такий же лист у стилі Ван Гога.
Є також штрихові малюнки. Штриховий малюнок - це високий рівень абстракції зображень, і він має дуже високі вимоги до раціональності композиції генерації екрану.Попередні методи були важко досягнути успіху.
Штрихи сирної тіні на вихідному зображенні відновлюються на об’єктах на кожному зображенні.
Див. Створення ЛОГОТИПА Android.
Крім того, дослідники також розширили можливості StyleDrop не лише налаштовувати стиль у поєднанні з DreamBooth, але й налаштовувати вміст.
Наприклад, все ще в стилі Ван Гога, згенеруйте схожий стиль малювання для Коргі:
Ось ще один, коргі внизу має відчуття «Сфінкса» на єгипетській піраміді.
як працювати?
StyleDrop побудований на основі Muse і складається з двох ключових частин:
Один — ефективне тонке налаштування параметрів згенерованого візуального трансформатора, а інший — ітераційне навчання зі зворотним зв’язком.
Після цього дослідники синтезували зображення з двох точно налаштованих моделей.
Muse — це найсучасніша модель синтезу тексту в зображення, заснована на трансформаторі зображень, згенерованих масками. Він містить два модулі синтезу для генерації базового зображення (256 × 256) і суперроздільності (512 × 512 або 1024 × 1024).
Кожен модуль складається з кодера тексту T, перетворювача G, семплера S, кодера зображення E і декодера D.
T відображає текстові підказки t ∈ T у безперервний простір вкладення E. G обробляє текстові вкладення e ∈ E для генерації логарифмів l ∈ L послідовностей візуальних токенів. S виділяє послідовність візуальних токенів v ∈ V із логарифма за допомогою ітеративного декодування, яке виконує кілька кроків трансформаторного висновку, залежно від вбудовування тексту e та візуальних токенів, декодованих на попередніх кроках.
Нарешті, D відображає послідовність дискретних токенів на простір пікселів I. Загалом, якщо задано текстову підказку t, зображення I синтезується таким чином:
На рисунку 2 зображено спрощену архітектуру трансформаторного рівня Muse, яка була частково модифікована для підтримки ефективного параметричного тонкого налаштування (PEFT) і адаптерів.
Послідовність візуальних токенів, показаних зеленим кольором, залежно від вбудованого тексту e, обробляється за допомогою трансформатора L-рівня. Вивчені параметри θ використовуються для побудови вагових коефіцієнтів для налаштування адаптера.
Щоб навчити θ, у багатьох випадках дослідникам можуть давати лише зображення як посилання на стиль.
Дослідники повинні вручну прикріпити текстові підказки. Вони пропонують простий шаблонний підхід для створення текстових підказок, що складаються з опису вмісту, за яким слідує фраза, що описує стиль.
Наприклад, дослідники описують об’єкт словом «кішка» в таблиці 1 і додають «живопис аквареллю» як опис стилю.
Включення опису змісту та стилю в текстові підказки має вирішальне значення, оскільки це допомагає відокремити зміст від стилю, що є основною метою дослідників.
На малюнку 3 показано ітераційне навчання зі зворотним зв’язком.
Під час навчання на одному еталонному зображенні стилю (помаранчеве поле) деякі зображення, згенеровані StyleDrop, можуть відображати вміст, отриманий із еталонного зображення стилю (червоне поле, зображення з будинком, схожим на зображення стилю на фоні).
Інші зображення (сині рамки) краще відокремлюють стиль від вмісту. Ітераційне навчання StyleDrop на хороших прикладах (сині поля) призводить до кращого балансу між стилем і точністю тексту (зелені поля).
Тут дослідники також використовували два методи:
-Оцінка CLIP
Цей метод використовується для вимірювання вирівнювання зображень і тексту. Тому він може оцінити якість створених зображень, вимірявши оцінку CLIP (тобто косинусну подібність візуальних і текстових вставок CLIP).
Дослідники можуть вибрати зображення CLIP з найвищим балом. Вони називають цей метод ітеративним навчанням із зворотним зв’язком CLIP (CF).
Під час експериментів дослідники виявили, що використання оцінки CLIP для оцінки якості синтетичних зображень є ефективним способом покращити запам’ятовування (тобто точність тексту) без надто великої втрати точності стилю.
З іншого боку, однак, бали CLIP можуть не повністю відповідати людським намірам і не вловлювати тонкі стилістичні атрибути.
-ВЧ
Зворотний зв’язок людини (HF) — це більш простий спосіб безпосередньо впровадити наміри користувача в оцінку якості синтетичного зображення.
HF виявився потужним і ефективним у тонкому налаштуванні LLM для навчання з підкріпленням.
HF можна використовувати для компенсації нездатності балів CLIP вловлювати тонкі стилістичні атрибути.
На даний момент велика кількість досліджень зосереджена на проблемі персоналізації моделей дифузії тексту в зображення для синтезу зображень, що містять кілька особистих стилів.
Дослідники показали, як просто поєднати DreamBooth і StyleDrop, дозволяючи персоналізувати як стиль, так і вміст.
Це робиться шляхом вибірки з двох модифікованих генеративних розподілів, керуючись θs для стилю та θc для вмісту відповідно, параметри адаптера навчаються незалежно на еталонних зображеннях стилю та вмісту.
На відміну від існуючих готових продуктів, підхід команди не вимагає спільного навчання параметрів, що вивчаються, на кількох концепціях, що веде до більшої комбінаторної потужності, оскільки попередньо підготовлені адаптери окремо навчаються одній темі та стилю.
Загальний процес вибірки дослідників дотримується ітеративного декодування рівняння (1), при цьому логарифми відбираються по-різному на кожному кроці декодування.
Нехай t — текстова підказка, c — текстова підказка без дескриптора стилю, а логарифм обчислюється на кроці k наступним чином:
Де: γ використовується для балансування StyleDrop і DreamBooth - якщо γ дорівнює 0, ми отримуємо StyleDrop, якщо γ дорівнює 1, ми отримуємо DreamBooth.
Встановлюючи γ розумно, ми можемо отримати відповідне зображення.
Налаштування експерименту
Поки що не було проведено великих досліджень щодо налаштування стилю для генеративних моделей перетворення тексту в зображення.
Тому дослідники запропонували новий експериментальний протокол:
-збір даних
Дослідники зібрали десятки фотографій у різних стилях, починаючи від акварельних і олійних картин, плоских ілюстрацій, 3D-візуалізацій і закінчуючи скульптурами з різних матеріалів.
Дослідники налаштували StyleDrop на основі Muse за допомогою адаптерів. Для всіх експериментів ваги адаптера оновлювалися для 1000 кроків за допомогою оптимізатора Адама зі швидкістю навчання 0,00003. Якщо не зазначено інше, дослідники використовують StyleDrop для позначення моделі другого раунду, навченої на більш ніж 10 синтетичних зображеннях із відгуками людини.
-Оцініть
Кількісна оцінка звітів про дослідження базується на CLIP, який вимірює стилістичну послідовність і вирівнювання тексту. Крім того, дослідники провели дослідження переваг користувачів, щоб оцінити узгодженість стилю та вирівнювання тексту.
Як показано на малюнку, 18 зображень різних стилів, зібраних дослідниками, є результатом обробки StyleDrop.
Як бачите, StyleDrop здатний вловлювати нюанси текстури, затінення та структури в різноманітних стилях, забезпечуючи більший контроль над стилем, ніж раніше.
Для порівняння дослідники також представляють результати DreamBooth на Imagen, реалізацію DreamBooth LoRA на Stable Diffusion і результати інверсії тексту.
Конкретні результати наведено в таблиці, показники оцінки оцінки людини (вгорі) та оцінки CLIP (внизу) вирівнювання зображення й тексту (Text) і вирівнювання візуального стилю (Style).
Якісне порівняння (a) DreamBooth, (b) StyleDrop і © DreamBooth + StyleDrop:
Тут дослідники застосували дві метрики оцінки CLIP, згадані вище, – оцінку тексту та стилю.
Для текстових оцінок дослідники вимірюють косинусну подібність між вбудованими зображеннями та текстом. Для оцінки стилю дослідники вимірюють косинусну подібність між еталонним стилем і вбудовуванням синтетичного зображення.
Дослідники створили загалом 1520 зображень для 190 текстових підказок. Хоча дослідники сподівалися, що підсумкова оцінка буде вищою, насправді ці показники не ідеальні.
А ітераційне навчання (ІТ) покращує оцінку тексту, що відповідає меті дослідників.
Однак, як компроміс, вони страждають від знижених балів стилю на моделях першого проходу, оскільки вони навчаються на синтетичних зображеннях, де стилі можуть бути зміщені через зміщення вибору.
DreamBooth на Imagen поступається StyleDrop за показником стилю (0,644 проти 0,694 для HF).
Дослідники помітили, що збільшення оцінки стилю DreamBooth на Imagen було незначним (0,569 → 0,644), тоді як збільшення StyleDrop на Muse було більш очевидним (0,556 → 0,694).
Дослідники проаналізували, що тонке налаштування стилю в Muse ефективніше, ніж у Imagen.
Крім того, для точного контролю StyleDrop фіксує ледве помітні стилістичні відмінності, як-от зміни кольорів, шари або гострі кути.
Популярні коментарі користувачів мережі
Якщо у дизайнерів є StyleDrop, ефективність роботи в 10 разів швидша.
Один день у ШІ, 10 років у світі, AIGC розвивається зі швидкістю світла, такою швидкістю світла, що людям засліплює очі!
Інструменти просто слідують тренду, а те, що слід усунути, вже усунуто.
Цей інструмент набагато кращий, ніж Midjourney, для створення логотипу.
Література: