Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney?

Question

Автор: Сінь ЧжиюаньЯк тільки Google StyleDrop з'явився, він миттєво охопив Інтернет.Враховуючи зоряне небо Ван Гога, штучний інтелект втілюється як Майстер Ван Гог, і після найвищого рівня розуміння цього абстрактного стилю він створив незліченну кількість подібних картин.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-a63f8b2731-dd1a6f-62a40f)Інший стиль мультфільму, об’єкти, які я хочу намалювати, набагато миліші.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-ba5be7e28e-dd1a6f-62a40f)Навіть він може точно контролювати деталі та створювати оригінальний стиль логотипу.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-36e0acb974-dd1a6f-62a40f)Чарівність StyleDrop полягає в тому, що лише одне зображення потрібне як еталон, яким би складним не був художній стиль, його можна деконструювати та відтворити.Користувачі мережі сказали, що це такий інструмент штучного інтелекту, який усуває дизайнерів.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-0128f34a02-dd1a6f-62a40f)Дослідження вибуху StyleDrop є останнім продуктом дослідницької групи Google.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-cdd0484269-dd1a6f-62a40f)Адреса паперу:Тепер за допомогою таких інструментів, як StyleDrop, ви можете не тільки малювати більш контрольовано, але й виконувати раніше неймовірну тонку роботу, наприклад малювати логотипи.Навіть вчені Nvidia назвали це «феноменальним» результатом.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-6a95dbd486-dd1a6f-62a40f)### Майстер налаштуванняАвтор статті зазначив, що джерелом натхнення для StyleDrop є Eyedropper (інструмент для поглинання/вибору кольорів).Подібним чином StyleDrop також сподівається, що ви зможете швидко й без зусиль «вибрати» стиль із одного/кількох еталонних зображень, щоб створити зображення цього стилю.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-d9275396f3-dd1a6f-62a40f)У лінивця може бути 18 стилів:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-1443674156-dd1a6f-62a40f)Панда має 24 стилі:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-66fc512249-dd1a6f-62a40f)Акварель, яку малювали діти, відмінно контролювався StyleDrop, і навіть зморшки на папері були відновлені.Треба сказати, що це занадто сильно.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-df8264901d-dd1a6f-62a40f)Існує також StyleDrop, що стосується дизайну англійських літер у різних стилях:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-6f8a9dae84-dd1a6f-62a40f)Такий же лист у стилі Ван Гога.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-34f13a1102-dd1a6f-62a40f)Є також штрихові малюнки. Штриховий малюнок - це високий рівень абстракції зображень, і він має дуже високі вимоги до раціональності композиції генерації екрану.Попередні методи були важко досягнути успіху.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-e5b3d3f531-dd1a6f-62a40f)Штрихи сирної тіні на вихідному зображенні відновлюються на об’єктах на кожному зображенні.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-25f67b8ecd-dd1a6f-62a40f)Див. Створення ЛОГОТИПА Android.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-0ee81a8c46-dd1a6f-62a40f)Крім того, дослідники також розширили можливості StyleDrop не лише налаштовувати стиль у поєднанні з DreamBooth, але й налаштовувати вміст.Наприклад, все ще в стилі Ван Гога, згенеруйте схожий стиль малювання для Коргі:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-68302a1fac-dd1a6f-62a40f)Ось ще один, коргі внизу має відчуття «Сфінкса» на єгипетській піраміді.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-4cc7c50d40-dd1a6f-62a40f)### як працювати?StyleDrop побудований на основі Muse і складається з двох ключових частин:Один — ефективне тонке налаштування параметрів згенерованого візуального трансформатора, а інший — ітераційне навчання зі зворотним зв’язком.Після цього дослідники синтезували зображення з двох точно налаштованих моделей.Muse — це найсучасніша модель синтезу тексту в зображення, заснована на трансформаторі зображень, згенерованих масками. Він містить два модулі синтезу для генерації базового зображення (256 × 256) і суперроздільності (512 × 512 або 1024 × 1024).![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-1f818124b3-dd1a6f-62a40f)Кожен модуль складається з кодера тексту T, перетворювача G, семплера S, кодера зображення E і декодера D.T відображає текстові підказки t ∈ T у безперервний простір вкладення E. G обробляє текстові вкладення e ∈ E для генерації логарифмів l ∈ L послідовностей візуальних токенів. S виділяє послідовність візуальних токенів v ∈ V із логарифма за допомогою ітеративного декодування, яке виконує кілька кроків трансформаторного висновку, залежно від вбудовування тексту e та візуальних токенів, декодованих на попередніх кроках.Нарешті, D відображає послідовність дискретних токенів на простір пікселів I. Загалом, якщо задано текстову підказку t, зображення I синтезується таким чином:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-fec2300540-dd1a6f-62a40f)На рисунку 2 зображено спрощену архітектуру трансформаторного рівня Muse, яка була частково модифікована для підтримки ефективного параметричного тонкого налаштування (PEFT) і адаптерів.Послідовність візуальних токенів, показаних зеленим кольором, залежно від вбудованого тексту e, обробляється за допомогою трансформатора L-рівня. Вивчені параметри θ використовуються для побудови вагових коефіцієнтів для налаштування адаптера.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-d113270572-dd1a6f-62a40f)Щоб навчити θ, у багатьох випадках дослідникам можуть давати лише зображення як посилання на стиль.Дослідники повинні вручну прикріпити текстові підказки. Вони пропонують простий шаблонний підхід для створення текстових підказок, що складаються з опису вмісту, за яким слідує фраза, що описує стиль.Наприклад, дослідники описують об’єкт словом «кішка» в таблиці 1 і додають «живопис аквареллю» як опис стилю.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-a1a1c87595-dd1a6f-62a40f)Включення опису змісту та стилю в текстові підказки має вирішальне значення, оскільки це допомагає відокремити зміст від стилю, що є основною метою дослідників.На малюнку 3 показано ітераційне навчання зі зворотним зв'язком.Під час навчання на одному еталонному зображенні стилю (помаранчеве поле) деякі зображення, згенеровані StyleDrop, можуть відображати вміст, отриманий із еталонного зображення стилю (червоне поле, зображення з будинком, схожим на зображення стилю на фоні).Інші зображення (сині рамки) краще відокремлюють стиль від вмісту. Ітераційне навчання StyleDrop на хороших прикладах (сині поля) призводить до кращого балансу між стилем і точністю тексту (зелені поля).![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-645995b161-dd1a6f-62a40f)Тут дослідники також використовували два методи:-Оцінка CLIPЦей метод використовується для вимірювання вирівнювання зображень і тексту. Тому він може оцінити якість створених зображень, вимірявши оцінку CLIP (тобто косинусну подібність візуальних і текстових вставок CLIP).Дослідники можуть вибрати зображення CLIP з найвищим балом. Вони називають цей метод ітеративним навчанням із зворотним зв’язком CLIP (CF).Під час експериментів дослідники виявили, що використання оцінки CLIP для оцінки якості синтетичних зображень є ефективним способом покращити запам’ятовування (тобто точність тексту) без надто великої втрати точності стилю.З іншого боку, однак, бали CLIP можуть не повністю відповідати людським намірам і не вловлювати тонкі стилістичні атрибути.-ВЧЗворотний зв’язок людини (HF) — це більш простий спосіб безпосередньо впровадити наміри користувача в оцінку якості синтетичного зображення.HF виявився потужним і ефективним у тонкому налаштуванні LLM для навчання з підкріпленням.HF можна використовувати для компенсації нездатності балів CLIP вловлювати тонкі стилістичні атрибути.На даний момент велика кількість досліджень зосереджена на проблемі персоналізації моделей дифузії тексту в зображення для синтезу зображень, що містять кілька особистих стилів.Дослідники показали, як просто поєднати DreamBooth і StyleDrop, дозволяючи персоналізувати як стиль, так і вміст.Це робиться шляхом вибірки з двох модифікованих генеративних розподілів, керуючись θs для стилю та θc для вмісту відповідно, параметри адаптера навчаються незалежно на еталонних зображеннях стилю та вмісту.На відміну від існуючих готових продуктів, підхід команди не вимагає спільного навчання параметрів, що вивчаються, на кількох концепціях, що веде до більшої комбінаторної потужності, оскільки попередньо підготовлені адаптери окремо навчаються одній темі та стилю.Загальний процес вибірки дослідників дотримується ітеративного декодування рівняння (1), при цьому логарифми відбираються по-різному на кожному кроці декодування.Нехай t — текстова підказка, c — текстова підказка без дескриптора стилю, а логарифм обчислюється на кроці k наступним чином:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-81ad5cbbde-dd1a6f-62a40f)![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-29e9c54bff-dd1a6f-62a40f)Де: γ використовується для балансування StyleDrop і DreamBooth - якщо γ дорівнює 0, ми отримуємо StyleDrop, якщо γ дорівнює 1, ми отримуємо DreamBooth.Встановлюючи γ розумно, ми можемо отримати відповідне зображення.#### Налаштування експериментуПоки що не було проведено великих досліджень щодо налаштування стилю для генеративних моделей перетворення тексту в зображення.Тому дослідники запропонували новий експериментальний протокол:-збір данихДослідники зібрали десятки фотографій у різних стилях, починаючи від акварельних і олійних картин, плоских ілюстрацій, 3D-візуалізацій і закінчуючи скульптурами з різних матеріалів.- конфігурація моделіДослідники налаштували StyleDrop на основі Muse за допомогою адаптерів. Для всіх експериментів ваги адаптера оновлювалися для 1000 кроків за допомогою оптимізатора Адама зі швидкістю навчання 0,00003. Якщо не зазначено інше, дослідники використовують StyleDrop для позначення моделі другого раунду, навченої на більш ніж 10 синтетичних зображеннях із відгуками людини.-ОцінітьКількісна оцінка звітів про дослідження базується на CLIP, який вимірює стилістичну послідовність і вирівнювання тексту. Крім того, дослідники провели дослідження переваг користувачів, щоб оцінити узгодженість стилю та вирівнювання тексту.Як показано на малюнку, 18 зображень різних стилів, зібраних дослідниками, є результатом обробки StyleDrop.Як бачите, StyleDrop здатний вловлювати нюанси текстури, затінення та структури в різноманітних стилях, забезпечуючи більший контроль над стилем, ніж раніше.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-bd9d9575f2-dd1a6f-62a40f)Для порівняння дослідники також представляють результати DreamBooth на Imagen, реалізацію DreamBooth LoRA на Stable Diffusion і результати інверсії тексту.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-6034ae5996-dd1a6f-62a40f)Конкретні результати наведено в таблиці, показники оцінки оцінки людини (вгорі) та оцінки CLIP (внизу) вирівнювання зображення й тексту (Text) і вирівнювання візуального стилю (Style).![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-1e7de15152-dd1a6f-62a40f)Якісне порівняння (a) DreamBooth, (b) StyleDrop і (c) DreamBooth + StyleDrop:![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-01d48261bc-dd1a6f-62a40f)Тут дослідники застосували дві метрики оцінки CLIP, згадані вище, – оцінку тексту та стилю.Для текстових оцінок дослідники вимірюють косинусну подібність між вбудованими зображеннями та текстом. Для оцінки стилю дослідники вимірюють косинусну подібність між еталонним стилем і вбудовуванням синтетичного зображення.Дослідники створили загалом 1520 зображень для 190 текстових підказок. Хоча дослідники сподівалися, що підсумкова оцінка буде вищою, насправді ці показники не ідеальні.А ітераційне навчання (ІТ) покращує оцінку тексту, що відповідає меті дослідників.Однак, як компроміс, вони страждають від знижених балів стилю на моделях першого проходу, оскільки вони навчаються на синтетичних зображеннях, де стилі можуть бути зміщені через зміщення вибору.DreamBooth на Imagen поступається StyleDrop за показником стилю (0,644 проти 0,694 для HF).Дослідники помітили, що збільшення оцінки стилю DreamBooth на Imagen було незначним (0,569 → 0,644), тоді як збільшення StyleDrop на Muse було більш очевидним (0,556 → 0,694).Дослідники проаналізували, що тонке налаштування стилю в Muse ефективніше, ніж у Imagen.Крім того, для точного контролю StyleDrop фіксує ледве помітні стилістичні відмінності, як-от зміни кольорів, шари або гострі кути.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-015111f943-dd1a6f-62a40f)### Популярні коментарі користувачів мережіЯкщо у дизайнерів є StyleDrop, ефективність роботи в 10 разів швидша.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-1cef88b0b0-dd1a6f-62a40f)Один день у ШІ, 10 років у світі, AIGC розвивається зі швидкістю світла, такою швидкістю світла, що людям засліплює очі!![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-a6e5061fd0-dd1a6f-62a40f)Інструменти просто слідують тренду, а те, що слід усунути, вже усунуто.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-ce7b0a0ffc-dd1a6f-62a40f)Цей інструмент набагато кращий, ніж Midjourney, для створення логотипу.![Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney? ](https://img.gateio.im/social/moments-69a80767fe-ed3b146fc4-dd1a6f-62a40f)Література:

Як StyleDrop від Google може кинути виклик інструменту малювання AI Midjourney?

Майстер налаштування

як працювати?

Налаштування експерименту

Популярні коментарі користувачів мережі

Популярні теми

GateLaunchesGateforAI

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

GoldAndSilverMoveHigher

USIranTensionsImpactMarkets

Популярні активності Gate Fun

PI

PI

Ayan

ARGT

π

zaicheng

SJZ

三角洲

£

low

Закріпити