Negur DesignGraphic-Neural-Networks-text-to-image

Графічні нейронні мережі

Цей аналіз я робив влітку 2023 року, тому в нейромережах з'явилися зміни.

Нейромережі швидко розвиваються і ті результати, які були кілька років тому просто розвагою та схожі на психоделіку, зараз зовсім змінилися. Графічні нейромережі видають чудові результати і, звичайно ж, ця тема дуже обговорюється усіма дизайнерами і не тільки. Я тестував та вивчаю різні нейронні мережі. Тренувався на кішках.

Це зображення я зробив у Photoshop 25.0 Beta AI за запитом:

Cute Grey Cat with blue eyes, wearing a bowtie in Graphic neural networks

Перебирав різні варіанти і доредагував, замінюючи варіант з краваткою.

Нейромережі, по яким я зробив огляд з котами:

BlueWillow
Leonardo.ai
StableDiffusion on Google Colab
clipdrop.co Stable diffusion
StableDiffusion on local server
stablediffusionweb.com
EasyDiffusion
FusianBrain
replicate.com Stability aistable diffusion
Photoshop 25.0 Beta AI

Для демонстрації результатів та для подальшого їх порівняння створив один запит:

Cute Grey Cat with blue eyes, wearing a bowtie

Тестував у всіх безкоштовних нейромережах або частково безкоштовних, а також у Adobe Photoshop 25.0 AI.

Метелик-краватка не повинна бути обов'язково синьою, сині вказані тільки очі, але багато нейронних мереж застосовують синій колір і до очей і до краватки і до заднього фону, додають освітлення в синіх тонах або інших кольорах, які вказуєш як колір одного елемента в зображенні. У такому разі я дописував інші запити або писав негативний prompt синої краватки. Також якщо прописуєш, наприклад, сині очі і золотиста краватка або бардова, можуть змінюватися колір очей на золотий, а краватку ставити синю або додавати в інтер'єр золоті об'єкти або бардові тканини.

З усіх нейромереж, в яких я тестував кота з краваткою, тільки Adobe Photoshop 25.0 Beta AI генерував краватку не синього кольору і правильний синій колір очей. З іншими нейромережами доводилося перебирати комбінації запитів і по-різному змінювати колір очей та краватки. Кожна нейромережа показує певну модель, якою вона навчена та змінює їй вигляд, ракурс. Деякі нейромережі мають можливість вибору, додавання нових моделей та вибору різних стилів дизайну.

BlueWillow

BlueWillow в Discord генерує зображення як і в Midjorney за принципом переборів із запропонованих 4-х варіантів. Але результати у BlueWillow не такі як у Midjorney.

По запросу:

Cute Grey Cat with blue eyes, wearing a bowtie

Нейромережа BlueWillow в Discord генерує зображення більше схожі на векторну графіку, ніж на реалістичні фотографії. Видно, що є червона краватка і три варіанти синіх, тільки у двох котів сині очі і вовна не сіра, а з різними візерунками, один кіт взагалі з темною вовною і одягнений у костюм. Уточнюючий запит:

Cute Grey Cat with blue eyes, wearing a gold royal bowtie

На трьох з варіантів золотий метелик і лише на одному блакитно зелені очі. Далі я вибираю один варіант та роблю уточнюючий запит для кольору очей:

/imagine prompt:https://cdn.discordapp.com/attachments/1081781890316521542/1148450115128926248/853bbd66-e71f-4967-8653-09c6361895f1.jpg Cute Grey Cat with blue vivid eyes, wearing a gold royal bowtie

/imagine prompt:https://media.discordapp.net/attachments/1081781890316521542/1148451818427400233/91108294-6551-41f8-9920-c828967f13ef.jpg?width=754&height=754 Cute Grey Cat with blue vivid eyes, wearing a gold royal bowtie

Я не знаходжу можливості прописати негативний запит. Наприклад, якщо я хочу зробити сіру вовну у кота, а на всіх зображеннях візерунки, біла мордочка, біла вовна на тулубі, я не можу змінити цей візерунок, потрібно змінювати запит. Інші зображення по запиту:

Cute Grey Cat with blue eyes, wearing a bowtie

Вони погано відповідають запиту. Продовжую шукати у варіантах із золотою краваткою та блакитними очима та покращую результат до синіх очей.

/imagine prompt:https://media.discordapp.net/attachments/1081781890316521542/1148451818427400233/91108294-6551-41f8-9920-c828967f13ef.jpg?width=754&height=754 vivid blue eyes

Для отримання кращих результатів потрібно покращувати запити та багато тестувати нейромережу.
Нейромережа BlueWillow генерує неточно, всі зображення в одному графічному стилі, вони не схожі на реалістичні зображення, можна довго підбирати те, що хочеш отримати. Наприклад, вибирається один варіант зображення і задається уточнюючий колір очей, але нейромережа замінює частково як колір очей на синій, але не так яскраво як потрібно і змінює інший фон з абстрактного на природу.
Зі всіх запропонованих варіантів котів немає кота з чистим забарвленням сірої вовни без візерунків та білих забарвлень.
Це може бути красиво, але не відповідає запиту.

Є цікава можливість змішування кількох зображень для отримання результату.
BlueWillow це робить, але результати зовсім не такі як у Midjorney, Midjorney у цьому плані дуже креативна.
Результати BlueWillow гірші.

Leonardo.ai

Згенерував 4 варіанти котів у Leonardo.ai по запросу з негативним запросом.
Генерувало кілька метеликів-краваток, поставив у нагативний промпт.
Результати генеруються швидко, якість їх мене влаштовує.

Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties

Відразу видно який королівський результат, які яскраві сині очі у кота, вони точно сині, не коричневі, не зелені. Видно як деталізований паттерн у краватки, який благородний вигляд на всіх зображеннях у кота і сам вид інтер'єру не вказаний і за замовчуванням він теж гарний, казковий.

Відмінності між Midjorney та Leonardo.ai можна зрозуміти коли потестуєш Midjorney.
Нейромережа Midjorney платна, вона добре міксує зображення, може використовувати кілька зображень, текстові запити та генерувати за ними графіку, пропонуючи дуже реалістичні та креативні ідеї. Я протестував як міксує BlueWillow у discord одне зображення та додає до них текстові запити з іншими зображеннями. Результати не такі реалістичні, як у Midjorney. Вони схожі на результати як у Stable Diffusion, коли немає моделей, міксовані зображення виходять неточними, з'являються зайві елементи, погано деталізовані.

Після трьох-чотирьох генерацій по 4 зображення у мене з'явилося повідомлення про необхідність поповнення токенів. Безкоштовних токенів на 8 годин вистачає на невелику кількість генерацій для разових завдань, не для великої кількості переборів.

Midjorney і BlueWillow працюють у discord, там створюється бот і в окремому приватному каналі пишуться запити, потім вибирається щось із 4-х результатів та уточнюються запити. Можна писати нові запити на основі запропонованих результатів, бачити історію запитів. Leonardo має discord канал, але я не зміг згенерувати запити на приватному каналі, вони чомусь не вводяться. У Midjorney (платна) та BlueWillow (безкоштовна) є команда /imagine prompt і запит на дискорді в Leonardo я не знайшов такої можливості.

Leonardo.ai генерує по запросу

Cute Grey Cat with blue eyes, wearing a bowtie

всіх котів із синіми краватками і при цьому додає ще зайві краватки, тому для тестування нейромережі покращив запит з бардовим метеликом:

Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie
Negative prompt: more bowties

Якщо не вказувати негативний промпт, виходять варіанти з декільма краватками.
Негативний промпт не задається спочатку за умовчанням і прихований у prompt magic.
Також є невідповідність кольору очей. Я згенерував це з іншої спроби, тому вибрав іншу модель.
Дається 150 токенів генерація одного зображення 1536x1536 коштує 26 токенів, є різні стилі: Cimematic, Creative, Vibrant.
Чомусь згенерувало з двома метеликами, один блакитний, інший бардовий.
Кіт реалістичний, але очі не блакитні, якість зображення, реалістичність мене влаштовує, не влаштовує точність запиту.
Якщо генерувати не на тій моделі, результати виходять жахливі, я ставив за промовчанням SDXL 0.9 і в кота деформувалися очі, ніс, з'являлися зайві лапи, з'являлися дефекти різних елементах зображення.
Потрібно тестувати, яка модель підходить для зображення, є вибір.

Змінив модель генерації для тесту на Absolute Reality

Prompt: Cute Grey Cat with blue vivid eyes, wearing a burgundy royal one bowtie
Negative prompt: more bowties

Після кількох невдалих варіантів результат вийшов цілком гідний, кіт сірий, реалістичний, з блакитними очима, колір метелика підходить, тільки вид краватки не вказано.

Токени закінчуються швидко, тому що потрібно багато тестувати, щоб отримувати правильні результати.
Токени оновлюються через 8 годин по 150 токенів.
Зробив новий промпт:

Prompt: Cute Dark Grey Cat, blue eyes, wearing yellow bowtie
Negative prompt: 2 bowtie, more bowties

Якщо змінювати запит і додавати золоту краватку, леонардо не розуміє це, на жовтий колір нейромережа змінює краватку і одночасно змінює очі, а також додає іноді і жовтий інтер'єр.
У половині випадків з'являються дефекти очей, дефекти краватки, нейромережа намагається поставити синю і жовту краватку разом. Бувають випадки дефектів графіки, розтягнуті окремі частини тіла, розділені на декілька частин об'єкти.
Щоб отримати чіткий результат, потрібно тестувати запити.

Я вибрав останній варіант кота, доопрацював його у Photoshop 25.0 Beta AI, змінив колір очей на синій, як було у запиті, переставив і доопрацював краватку, додав стрічку біля краватки, додав вовни коту.

StableDiffusion з моделлю AbsoluteReality

По запросу:

Cute Grey Cat with blue eyes, wearing a bowtie

Краватка завжди генерується світло блакитною і її колір змінюється тільки після уточнюючого запиту.

Додав варіанти золотого краватки-метелика, бордово королівського:

Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie

Можна ускладнювати запити та покращувати фон, стилістику, але результати зрозумілі, однакова модель кота.
При спробі змінити колір метелика на золотий:

Cute Grey Cat with blue eyes, wearing a golden bow tie

колір краватки залишався все одно блакитний,
змінив запит на:

Cute Grey Cat with blue eyes, wearing a golden bowtie

додалися кілька краваток, додав негативный Prompt:

Prompt: Cute Grey Cat with blue eyes, wearing a golden bowtie
Negative prompt: more bowties, two bowties

Ракурс трохи змінився, але сама краватка не змінюється в кольорі.

Prompt: Cute Grey Cat with blue eyes, wearing a gold royal bowtie
Negative prompt: more bowties, two bowties

Ракурс трохи змінився, але сама краватка не змінюється в кольорі.
Додає до інтер'єру елементи золота, але не золотий колір краватки.

При уточнюючому кольорі краватки на жовтий додає до інтер'єру жовтий колір, може показати дві кішки, може сильно змінювати форму краватки, жовта краватка додається якщо виділити (((yellow))) трьома дужками, до цього з'являється жовта краватка і блакитні очі, але форма краватки рідко генерується у вигляді метелика.
Іноді можуть з'явитися кілька котів або частин тіла, можуть бути змішування одного зображення та частини іншого зображення від наступної генерації.

Якщо зробити такий запит: "Cute Grey Cat with blue eyes, wearing a (((yellow bowtie)))", то міксує частини метелика до кота.
Якщо прибрати у негативному промті кілька метеликів, додадуть їх багато на кота.

Зробив більш уточнюючий запит:

Prompt: Cute Grey Cat with blue eyes, wearing (((yellow))) bowtie, light interior, portrait
Negative prompt: more bowties, two bowties

Щоб визначити потрібний варіант, необхідно багато тестувати, виникають різні недоліки, наприклад, вуса можуть плавно перейти у жовту тканину. На полицях в інтер'єрі можна побачити ще двох котів.
Два останні зображення на мій погляд цікаві, доопрацював їх у фотошопі.

clipdrop.co/stable-diffusion

Тестував по стандартному запросу:

Cute Grey Cat with blue eyes, wearing a bowtie

Видно, що всі краватки генеруються блакитними, додав запит:

Cute Grey Cat with blue eyes, wearing a golden royal bowtie

Нейромережа створила 4 зображення, 1 із золотою краваткою, 3 із синьою, навіть на одній створила золоту прикрасу.
Іноді зображення деталізовані, іноді розмиті, зображення із золотою краваткою розмите.
Можна побачити, що промальовує графіку дуже деталізовано, вона схожа на leonardo.ai і у більшому розмірі ці деталі мають бути помітні.

Новий запрос:

Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie

Видає чітко бордову краватку, блакитні очі, колір вовни кота світло-сірий або бежевий з плямами білого. Одні зображення виходять деталізовані і видно, що там буде гарна якість зі збільшенням зображення, але деякі зображення виходять розмитими, де фон одного кольору.

Нейромережа дозволяє згенерувати безкоштовно 12 зображень розміром 1024x1024 протягом доби. У режимі інкогніто можна сгенерувати додаткові зображення і в інших браузерах. Є різні стилі: Anime, Photographic, Digital Art, Comis Book, Fantasy Art, Analog Film, Neon Punk, Isometric, Low Poly, Origami, Line Art, Cinematic, 3D Model, Pixel Art.

Додав запрос:

Cute Grey Cat with blue eyes, wearing a golden royal bowtie

Anime

Photographic

Digital Art

Comis Book

Fantasy Art

Analog Film

Neon Punk

Isometric

Low Poly

Origami

Line Art

Cinematic

3D Model

Origami

Генерує по 4 зображення протягом хвилини, запити не точні, потрібно ставити негативні промти і багато перебирати результати, додає багато золотих елементів залежно від вибраного стилю.

StableDiffusion

StableDiffusion встановлений на локальному сервері без моделі.

Тестував по стандартному запросу:

Cute Grey Cat with blue eyes, wearing a bowtie

Результат неточний: зелені очі, надто темна голова кота зверху, знизу переходить у світлий колір, замість тулуба кота сорочка людини.

stablediffusionweb.com

https://stablediffusionweb.com/#demo

Генерує безкоштовно кожне зображення 512x512 приблизно 20-30 секунд.
На сайті є 94 різних стилів для кота, які я перевірив.
Оскільки стилів багато, я не додавав негативний промпт, всі коти вийшли з синіми очима та синьою краваткою, хоча писав такий промпт, де не вказано колір краватки:

Cute Grey Cat with blue eyes, wearing a bowtie

cinematic-default

ads-advertising

ads-automotive

ads-corporate

ads-fashion-editorial

ads-food-photography

ads-luxury

ads-real-estate

ads-retail

artstyle-abstract

artstyle-abstract-expressionism

artstyle-art-deco

artstyle-art-nouveau

artstyle-constructivist

artstyle-cubist

artstyle-expressionist

artstyle-graffiti

artstyle-hyperrealism

artstyle-pointillism

artstyle-pop-art

artstyle-psychedelic

artstyle-renaissance

artstyle-steampunk

artstyle-surrealist

artstyle-typography

futuristic-biomechanical

futuristic-biomechanic-cyberpunk

futuristic-cybernetic

futuristic-cybernetic-robot

futuristic-cyberpunk-cityscape

futuristic-futuristic

futuristic-retro-cyberpunk

futuristic-retro-futurism

futuristic-sci-fi

futuristic-vaporwave

game-bubble-bobble

game-cyberpunk-game

game-fighting-game

game-gta

game-mario

game-minecraft

game-pokemon

game-retro-arcade

game-retro-game

game-rpg-fantasy-game

game-strategy-game

game-streetfighter

game-zelda

misc-architectural

misc-lovecraftian

misc-macabre

misc-manga

misc-metropolis

misc-minimalist

misc-monochrome

misc-nautical

misc-space

misc-stained-glass

misc-techwear-fashion

misc-tribal

misc-zentangle

None

papercraft-collage

papercraft-flat-papercut

papercraft-kirigami

papercraft-paper-mache

papercraft-paper-quilling

sai-analog-film

sai-cinematic

sai-comic-book

sai-craft-clay

sai-digital-art

sai-enhance

sai-fantasy-art

sai-isometric

sai-line-art

sai-lowpoly

sai-neonpunk

sai-origami

sai-photographic

sai-texture

Easy Diffusion

https://easydiffusion.github.io

Встановлював програму на комп'ютері. Тестував на стандартній моделі sd-v1-4. Задав запит:

Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties

Вказуючи в негативному промпті багато краваток, з'являється половина краватки і друга краватка розташована набагато нижче. Колір краватки синій замість золотого. Очі яскраво-блакитні, а не сині, спереду у кота є частина білої вовни замість сірої. Додав промпт з золотою краваткою, з чотирьох варіантів тільки один варіант сгенерувало вірно.

Пози у котів невдалі, коти іграшкові, іноді відсутня краватка.
Додав модель absolutereality_v181.safetensors з сайту в Easy Diffusion *. Прописав промпт:

Prompt: Cute Grey Cat with blue eyes, wearing a golden royal bowtie
Negative prompt: more bowties, two bowties, golden interior

Краватка все одно синя, треба тестувати нові промпти.

Fusian brain

fusionbrain.ai

Задав запит:

Cute Grey Cat with blue eyes, wearing a bowtie

Генерує зображення швидко, я тестував 4 варіанти без стилю, вийшов один ракурс приблизно одного формату. Зображення всі виходять схожі, кут огляду, поза, малюнок текстур вовни у кота однакові. Очі у кота коричневі, хоча у запросі сині, колір краватки скрізь синій, хоча колір ніде не вказаний. Колір вовни на деяких зображеннях більше світло-коричневий ніж сірий. Але з урахуванням безкоштовного швидкого результату, можна щось відредагувати, розмір зображень 1024x1024 без обмежень користування.
Можна звернути увагу, що краватка одна і немає збою з їх кількістю, розташуванням, деформацією тіла, декілької котів та інше.

Додатковий запит:

Cute Grey Cat with blue eyes, wearing a royal gold bowtie

генерує золоті очі, і синю краватку. Результат якісний, швидкий, але не відповідає запиту і його потрібно якось змінювати так, щоб нейромережа зрозуміла, що потрібні саме блакитні очі і золота краватка.
Також вовна кота не зовсім сіра, а з візерунками та білими відтінками.

Додатковий запрос "Cute Grey Cat with blue eyes, wearing a royal gold bowtie" генерує золоті очі, і синю краватку.
Результат якісний, швидкий, але не відповідає запиту і його потрібно якось змінювати так, щоб нейромережа зрозуміла, що потрібні саме блакитні очі і золота краватка.
Також вовна кота не зовсім сіра, а з візерунками та білими відтінками.
Треба звернути увагу, що краватка одна і немає збою з їх кількістю, розташуванням, деформацією тіла, декілької котів та інше.

Після кількох спроб нейромережа створює вдалі сині очі та золотого метелика, але додає в інтер'єр синього та золотого відтінків.
Нейромережа не розуміє, який колір відноситься до якого об'єкта.
Після багатьох різних спроб (більше 20) з'являються сині очі

Fusionbrain має редактор, де можна видалити область за допомогою інструменту гумки і дописати новий запит, я видалив золоті очі і написав запит на сині очі, але очі виходили розмиті, нереалістичні, останнє зображення доробив у фотошопі.

При спробі змінити колір метелика на бордовий: Cute Grey Cat, blue vivid eyes, Royal burgundy bowtie
нейромережа створює інтер'єр червоного кольору, при цьому очі стають іншого забарвлення і метелик повертається знову в синій колір.
Нейромережа не розуміє що саме краватка повина бути червоного кольору і зафарбовує інтер'єр в червоний, доводиться перебирати результати або якось змінити запит, щоб підібрати результати:
Cute Grey Cat, blue vivid eyes, bowtie of burgundy fabric texture
Cute Grey Cat, blue vivid eyes, burgundy fabric bowtie

На запит:

Cute Grey Cat, blue vivid eyes, dark red fabric bowtie, bright interior

Генерує яскраву червону краватку, але додає в інтер'єр багато червоного і очі не сині. Треба покращувати запрос і тестувати результати.
Fusionbrain.ai має різні стилі, я згенерував їх для оцінки результатів.

CyberPunk

Anime

Christmas

Kandinsky

Aivazovsky

Malevich

Picasso

Goncharova

Classicism

Renaissance

Oil painting

Pencil drawing

Digital painting

Modieval painting

Soviet catoon

3d render

Cartoon

Studio photo

Portrait photo

Khokhloma

Stability aistable diffusion

replicate.com/stability-aistable-diffusion

Задав запит:

Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties

Розмір до 1024x1024, безкоштовно.
Генерує швидко, але робить помилки: кіт без метелика, вид камери кота дуже близький, дві голови кота, градієнт очей жовто-синій. Потрібно дописувати додаткові запити і їх тестувати.

Prompt: Cute Grey Cat with blue eyes, wearing a yellow bowtie, portrait
Negative prompt: 2 bowtie, more bowties, more cats

Результати швидкі, цікаві, але не відповідають запиту.
Інші генератори працюють довго. Пише "This can sometimes таке 3 to 5 minutes while the model boots up."
Деякі результати, які я тестував, також не були чіткими.

Photoshop 25.0 Beta AI

What's new in Photoshop Beta 25?

Задав запит:

Cute Grey Cat with blue eyes, wearing a bowtie

Тестував різні результати, обрав такий

Збільшував область, допрацьовував вуха, знизу тулуб.

Генерує швидко чітко результати у реалістичному стилі по три варіанти з можливостю генерувати інші варіанти.
Робить якісні результати, ракурси відрізняються, зображення не дублюються, генеруються різні ідеї. Наприклад, не показує синю кроватку на всіх зображеннях, а пропонує різні реалістичні ідеї, які можна доробити. Навіть якщо сгенерована бабочка-кроватка іншого виду, можна задати новий запрос саме під стилистику цієї кроватки, наприклад, "bow tie gold color" чи так "bow tie burgundy royal look".
Збоїв із пропорціями тіла, відсутністю краватки не помічено, не додає на задній фон синій чи інший колір.
Різні нейроні мережі генерують різні моделі котів. Тестував варіанти з різними кольорами краваток, пропонує все вірно.

Ускладнюю запит:

Cute Dark Grey Cat, blue eyes, wearing yellow bowtie

Генеруються зображення швидко, є іноді збої, краватка може бути на голові або деінде, дефекти відповідності запиту мінімальні.

Photoshop 25.0 Beta AI розрізняє породи кішок, ускладнюю запит:

Cute Siamese cat, blue eyes, wearing yellow bowtie

Cute British longhair cat, blue eyes, wearing yellow bowtie

Cute British Shorthair cat, blue eyes, wearing yellow bowtie

В останньому зображенні я доопрацював очі, краватку та стрічку.
Якщо видалити частину краватки та дописати запит "yellow bowtie", Photoshop 25.0 Beta AI додасть саме край краватки в потрібну область, розуміючи що потрібно відновити частину зображення, а не додати нове зображення в цю область.