Графические нейронные сети
Нейросети быстро развиваются и те результаты, которые были несколько лет назад просто развлечением и похожи на психоделику, сейчас совсем изменились. Графические нейросети выдают отличные результаты, эта тема очень обсуждается всеми дизайнерами и не только. Я тестировал и изучаю разные нейронные сети. Тренировался на кошках.
Эту работу я делал летом 2023 года, поэтому в нейросетях появились изменения.
Это изображение я сделал в Photoshop 25.0 Beta AI по запросу:
Cute Grey Cat with blue eyes, wearing a bowtie in Graphic neural networks
Перебирал разные варианты и доредактировал, заменяя вариант с галстуком.
Нейросети, по которым я сделал обзор с котами:
BlueWillow
Leonardo.ai
StableDiffusion on Google Colab
clipdrop.co Stable diffusion
StableDiffusion on local server
stablediffusionweb.com
EasyDiffusion
FusianBrain
replicate.com Stability aistable diffusion
Photoshop 25.0 Beta AI
Для демонстрации результатов и для дальнейшего их сравнения создал один запрос:
Cute Grey Cat with blue eyes, wearing a bowtie
Тестировался во всех бесплатных нейросетях или частично бесплатных, а также в Adobe Photoshop 25.0 AI.
Бабочка-галстук не должна быть обязательно синей, синие указаны только глаза, но многие нейроные сети применяют синий цвет и к глазам и к галстуку и к заднему фону, добавляют освещение в синих тонах или других цветах, которые указываешь как цвет одного элемента в изображении. В таком случае я дописывал другие запросы или писал отрицательный prompt синий галстук. Также если прописываешь, например, синие глаза и золотистую бабочку или бордовую, могут меняться цвет глаз на золотой, а галстук ставить синий или добавлять в интерьер золотые объекты или бордовые ткани.
Из всех нейросетей, в которых я тестировал кота с галстуком, только Adobe Photoshop 25.0 Beta AI генерировал галстук не синего цвета и правильный синий цвет глаз. С другими нейросетями приходилось перебирать комбинации запросов и по-разному менять цвет глаз и галстука. Каждая нейросеть показывает определенную модель, которой она обучена и изменяет ее вид, ракурс. Некоторые нейросети имеют возможность выбора, добавления новых моделей и различных стилей дизайна.
BlueWillow
BlueWillow в Discord генерирует изображение как и у Midjorney по принципу переборов из предложенных 4-х вариантов. Но результаты у BlueWillow не такие как у Midjorney.
По запросу:
Cute Grey Cat with blue eyes, wearing a bowtie
Нейросеть BlueWillow в Discord генерирует изображения больше похожие на векторную графику, чем на реалистичные фотографии. Видно, что есть красный галстук и три варианта синих, только у двух кошек синие глаза и шерсть не серая, а с разными узорами, один кот вообще с темной шерстью и одет в костюм. Уточняющий запрос:
Cute Grey Cat with blue eyes, wearing a gold royal bowtie
На трех из вариантов золотая бабочка и только на одном голубовато зеленые глаза. Далее выбираю один вариант и делаю уточняющий запрос для цвета глаз:
/imagine prompt:https://cdn.discordapp.com/attachments/1081781890316521542/1148450115128926248/853bbd66-e71f-4967-8653-09c6361895f1.jpg Cute Grey Cat with blue vivid eyes, wearing a gold royal bowtie
/imagine prompt:https://media.discordapp.net/attachments/1081781890316521542/1148451818427400233/91108294-6551-41f8-9920-c828967f13ef.jpg?width=754&height=754 Cute Grey Cat with blue vivid eyes, wearing a gold royal bowtie
Я не нахожу возможности прописать отрицательный запрос. К примеру, если я хочу сделать серую шерсть у кота, а на всех изображениях узоры, белая мордашка, белая шерсть на туловище, я не могу изменить этот узор, нужно менять запрос. Другие изображения по запросу:
Cute Grey Cat with blue eyes, wearing a bowtie
Они плохо отвечают запросу. Продолжаю искать в вариантах с золотым галстуком и голубыми глазами и улучшаю результат до синих глаз.
/imagine prompt:https://media.discordapp.net/attachments/1081781890316521542/1148451818427400233/91108294-6551-41f8-9920-c828967f13ef.jpg?width=754&height=754 vivid blue eyes
Для получения лучших результатов нужно улучшать запросы и много тестировать нейросеть.
Нейросеть BlueWillow генерирует неточно, все изображения в одном графическом стиле, они не похожи на реалистичные изображения, можно долго подбирать то, что хочешь получить. К примеру, выбирается один вариант изображения и задается уточняющий цвет глаз, но нейросеть заменяет частично как цвет глаз на синий, но не так ярко как нужно и изменяет другой фон с абстрактного на природу.
Из всех предложенных вариантов кошек нет кота с чистой окраской серой шерсти без узоров и белых расцветок.
Это может быть красиво, но не отвечает запросу.
Есть интересная возможность смешивания нескольких изображений для получения результата.
BlueWillow это делает, но результаты совсем не такие как у Midjorney, Midjorney в этом плане очень креативна.
Результаты BlueWillow хуже.
Leonardo.ai
Сгенерировал 4 варианта кошек в Leonardo.ai по запросу с отрицательным запросом.
Генерировало несколько бабочек-галстуков, поставил в нагативный промпт.
Результаты показываются быстро, качество их меня устраивает.
Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties
Сразу виден какой королевский результат, какие яркие синие глаза у кота, они точно синие, не коричневые, не зеленые.
Видно как детализированный паттерн у галстука, благородный вид на всех изображениях у кота и сам вид интерьера не указан и по умолчанию он тоже красив, сказочный.
Различия между Midjorney и Leonardo.ai можно понять, когда потестуешь Midjorney.br>
Нейросеть Midjorney платная, она хорошо миксует изображение, может использовать несколько изображений, текстовые запросы и генерировать по ним графику, предлагая очень реалистичные и креативные идеи. Я протестировал как миксует BlueWillow в discord одно изображение и добавляет к ним текстовые запросы с другими изображениями. Результаты не так реалистичны, как у Midjorney. Они похожи на результаты как у Stable Diffusion, когда нет моделей, миксированные изображения получаются неточными, появляются лишние элементы, плохо детализированы.
Результаты не так реалистичны, как у Midjorney. Они похожи на результаты как у Stable Diffusion, когда нет моделей, миксированные изображения получаются неточными, появляются лишние элементы, плохо детализированы. Я мало тестировал нейросеть Leonardo.ai и BlueWillow, возможно, нужно к ним привыкнуть.
После трех-четырех генераций по 4 изображения у меня появилось сообщение о необходимости пополнения токенов.
Бесплатных токенов на 8 часов хватает на небольшое количество генераций для разовых задач, не для большого количества переборов.
Midjorney и BlueWillow работают в discord, там создается бот и в отдельном приватном канале пишутся запросы, затем выбирается что-то из 4-х результатов и уточняются запросы.
Можно писать новые запросы на основе предложенных результатов, видеть историю запросов.
Leonardo имеет discord канал, но я не смог сгенерировать запросы на приватном канале, они почему-то не вводятся.
В Midjorney (платная) и BlueWillow (бесплатная) команда /imagine prompt
и запрос на дискорде в Leonardo я не нашел такой возможности.
Leonardo.ai генерирует по тексту
Cute Grey Cat with blue eyes, wearing a bowtie
всех кошек с синими галстуками и при этом добавляет еще лишние галстуки, поэтому для тестирования нейросети улучшил запрос с бардовой бабочкой:
Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie
Negative prompt: more bowties
Если не указывать отрицательный промпт, получаются варианты с несколькими галстуками.
Негативный промпт не задается сначала по умолчанию и скрыт в prompt magic.
Также есть несоответствие цвета глазу. Я сгенерировал это с другой попытки, потому выбрал другую модель.
Дается 150 токенов генерация одного изображения 1536x1536 стоит 26 токенов, есть разные стили: Cimematic, Creative, Vibrant.
Почему-то сгенерировало с двумя бабочками, один голубой, другой бордовый.
Кот реалистичен, но глаза не голубые, качество изображения, реалистичность меня устраивает, не устраивает точность запроса.
Если генерировать не на той модели, результаты получаются ужасающие, я ставил по умолчанию SDXL 0.9 и у кота деформировались глаза, нос, появлялись лишние лапы, появлялись дефекты на различных элементах изображения.
Нужно тестировать, какая модель подходит для изображения, есть выбор.
Сменил модель генерации для теста на Absolute Reality
Prompt: Cute Grey Cat with blue vivid eyes, wearing a burgundy royal one bowtie
Negative prompt: more bowties
После нескольких неудачных вариантов результат получился вполне достойный, серый кот, реалистичный, с голубыми глазами, цвет бабочки подходит, только вид галстука не указан.
Токены заканчиваются быстро, потому что нужно много тестировать, чтобы получать правильные результаты.
Токены обновляются через 8 часов по 150 токенов.
Сделал новый промпт:
Prompt: Cute Dark Grey Cat, blue eyes, wearing yellow bowtie
Negative prompt: 2 bowtie, more bowties
Если менять запрос и добавлять золотой галстук, леонардо не понимает это, на желтый цвет нейросети меняет галстук и одновременно меняет глаза, а также добавляет иногда и желтый интерьер.
В половине случаев появляются дефекты глаз, дефекты галстука, нейросеть пытается поставить синий и желтый галстук вместе. Бывают случаи дефектов графики, растянуты отдельные части тела, разделенные на несколько частей объекта.
Чтобы получить четкий результат, необходимо тестировать запросы.
Я выбрал последний вариант кота, доработал его в Photoshop 25.0 Beta AI, изменил цвет глаз на синий, как было в запросе, переставил и доработал галстук, добавил ленту у галстука, добавил шерсти коту.
StableDiffusion с моделью AbsoluteReality
По запросу:
Cute Grey Cat with blue eyes, wearing a bowtie
Галстук всегда генерируется светло голубой и его цвет меняется только после уточняющего запроса.
Добавил варианты золотого галстука-бабочки, бордово королевского:
Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie
Можно усложнять запросы и улучшать фон, стилистику, но результаты ясны, одинаковая модель кота.
При попытке сменить цвет бабочки на золотой:
Cute Grey Cat with blue eyes, wearing a golden bow tie
цвет галстука оставался все равно голубой,
изменил запрос на:
Cute Grey Cat with blue eyes, wearing a golden bowtie
добавились несколько галстуков,
добавил негативный Prompt:
Prompt: Cute Grey Cat with blue eyes, wearing a golden bowtie
Negative prompt: more bowties, two bowties
Ракурс немного изменился, но сам галстук не меняется в цвете.
Prompt: Cute Grey Cat with blue eyes, wearing a gold royal bowtie
Negative prompt: more bowties, two bowties
Ракурс немного изменился, но сам галстук не меняется в цвете.
Добавляет в интерьер элементы золота, но не золотой цвет галстука.
При уточняющем цвете галстука на желтый добавляет к интерьеру желтый цвет, может показать две кошки.
может сильно изменять форму галстука, желтый галстук добавляется если выделить (((yellow))) тремя скобками, после этого появляется желтый галстук и голубые глаза, но этого форма галстука редко генерируется в виде бабочки.
Иногда могут появиться несколько кошек или частей тела, могут быть смешивание одного изображения и части другого изображения от следующего поколения.
Если сделать такой запрос: "Cute Grey Cat with blue eyes, wearing a (((yellow bowtie)))",
то миксует части бабочки к коту.
Если убрать в отрицательном промте несколько бабочек, добавят их на кота.
Сделал более уточняющий запрос:
Prompt: Cute Grey Cat with blue eyes, wearing (((yellow))) bowtie, light interior, portrait
Negative prompt: more bowties, two bowties
Чтобы определить нужный вариант, необходимо много тестировать, возникают разные недостатки,
например, усы могут плавно перейти в желтую ткань. На полках в интерьере можно увидеть еще двух кошек.
Два последних изображения на мой взгляд интересны, доработал их в фотошопе.
clipdrop.co/stable-diffusion
Тестировал по стандартному запросу:
Cute Grey Cat with blue eyes, wearing a bowtie
Видно, что все краватки генерируются черными, додав запит:
Cute Grey Cat with blue eyes, wearing a golden royal bowtie
Нейросеть создала 4 изображения, 1 с золотым галстуком, 3 с синим, даже на одной создала золотое украшение.
Иногда изображения детализированы, иногда размыты, изображения с золотым галстуком размыты.
Можно увидеть, что прорисовывающая графика очень детализирована, она похожа на leonardo.ai и в большем размере эти детали должны быть заметны.
Новый запрос:
Cute Grey Cat with blue eyes, wearing a burgundy royal bowtie
Выдает четко бордовый галстук, голубые глаза, цвет шерсти кота светло-серый или бежевый с пятнами белого. Одни изображения получаются детализированы и видно, что там будет хорошее качество с увеличением изображения, но некоторые изображения получаются размытыми, где фон одного цвета.
Нейросеть позволяет сгенерировать бесплатно 12 изображений размером 1024×1024 в течение суток. В режиме инкогнито можно сгенерировать дополнительные изображения и в других браузерах. Есть разные стили: Anime, Photographic, Digital Art, Comis Book, Fantasy Art, Analog Film, Neon Punk, Isometric, Low Poly, Origami, Line Art, Cinematic, 3D Model, Pixel Art.
Добавил запрос:
Cute Grey Cat with blue eyes, wearing a golden royal bowtie
Генерирует по 4 изображения в течение минуты, запросы не точны, нужно ставить отрицательные промты и многое перебирать результаты, добавляет много золотых элементов в зависимости от выбранного стиля.
StableDiffusion
StableDiffusion установлен на локальном сервере без модели.
Тестировал по стандартному запросу:
Cute Grey Cat with blue eyes, wearing a bowtie
Результат неточен: зеленые глаза, черная голова кота сверху, снизу переходит в светлый цвет, вместо туловища кота рубашка человека.
stablediffusionweb.com
https://stablediffusionweb.com/#demo
Генерирует бесплатно каждое изображение 512x512 примерно 20-30 секунд.
На сайте есть 94 разных стилей для кота, которые я проверил.
Поскольку стилей много, я не добавлял отрицательный промпт, все коты вышли с синими глазами и синим галстуком, хотя писал такой промпт, где не указан цвет галстука:
Cute Grey Cat with blue eyes, wearing a bowtie
Easy Diffusion
https://easydiffusion.github.io
Устанавливал программу на компьютере. Тестировал на стандартной модели sd-v1-4. Задал запрос:
Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties
Указывая в отрицательном промпте много галстуков, появляется половина галстука и второй галстук расположен гораздо ниже. Цвет галстука синий вместо золотого. Глаза ярко-голубые, а не синие, спереди кота есть часть белой шерсти вместо серой. Добавил промпт с золотым галстуком, из четырех вариантов только один вариант сгенерировало верно.
Позы у кошек неудачны, кошки игрушечные, иногда отсутствует галстук.
Добавил модель absolutereality_v181.safetensors з сайту в Easy Diffusion *. Добавил промпт:
Prompt: Cute Grey Cat with blue eyes, wearing a golden royal bowtie
Negative prompt: more bowties, two bowties, golden interior
Галстук все равно синий, надо тестировать новые промпты.
Fusian brain
Задал запрос:
Cute Grey Cat with blue eyes, wearing a bowtie
Генерирует изображения быстро, я тестировал 4 варианта без стиля, получился один ракурс примерно одного формата. Изображения все получаются похожие, угол обзора, поза, рисунок текстур шерсти у кота одинаковы. Глаза кота коричневые, хотя в запросе синие, цвет галстука везде синий, хотя цвет нигде не указан. Цвет шерсти на некоторых изображениях более светло-коричневый, чем серый. Но с учетом бесплатного быстрого результата можно что-то отредактировать, размер изображений 1024x1024 без ограничений пользования.
Можно обратить внимание, что галстук один и нет сбоя с их количеством, расположением, деформацией тела, несколько кошек и прочее.
Дополнительный запрос:
Cute Grey Cat with blue eyes, wearing a royal gold bowtie
генерирует золотые глаза, и синий галстук. Результат качественный, быстрый, но не соответствует запросу и его нужно как-то менять так, чтобы нейросеть поняла, что нужны именно голубые глаза и золотой галстук.
Также шерсть кота не совсем серая, а с узорами и белыми оттенками.
Дополнительный запрос "Cute Grey Cat with blue eyes, wearing a royal gold bowtie" генерирует золотые глаза и синий галстук.
Результат качественный, быстрый, но не соответствует запросу и его нужно как-то менять так, чтобы нейросеть поняла, что нужны именно голубые глаза и золотой галстук.
Также шерсть кота не совсем серая, а с узорами и белыми оттенками.
Надо обратить внимание, что галстук один и нет сбоя с их количеством, расположением, деформацией тела, несколько кошек и прочее.
После нескольких попыток нейросеть создает удачные синие глаза и золотую бабочку, но добавляет в интерьер синего и золотого оттенков.
Нейросеть не понимает, какой цвет относится к какому объекту.
После многих разных попыток (более 20) появляются синие глаза
Fusionbrain має редактор, где можно удалить область с помощью инструмента резинки и дописать новый запрос, я удалил золотые глаза и написал запрос на синие, но глаза получались размытыми, нереалистичными, последнее изображение доделал в фотошопе.
При попытке сменить цвет бабочки на бордовый:
Cute Grey Cat, blue vivid eyes, Royal burgundy bowtie
нейросеть создает интерьер красного цвета, при этом глаза становятся другой окраски и бабочка возвращается снова в синий цвет.
Нейросеть не понимает что именно галстук должен быть красного цвета и окрашивает интерьер в красный, приходится перебирать результаты или как-то изменить запрос, чтобы подобрать результаты:
Cute Grey Cat, blue vivid eyes, bowtie of burgundy fabric texture
Cute Grey Cat, blue vivid eyes, burgundy fabric bowtie
На запрос:
Cute Grey Cat, blue vivid eyes, dark red fabric bowtie, bright interior
генерирует яркий красный галстук, но добавляет в интерьер много красного и глаза не синие. Следует улучшать запрос и тестировать результаты.
Fusionbrain.ai имеет разные стили, я сгенерировал их для оценки результатов.
Stability aistable diffusion
replicate.com/stability-aistable-diffusion
Задал запрос:
Prompt: Cute Grey Cat with blue eyes, wearing a bowtie
Negative prompt: 2 bowtie, more bowties
Размер до 1024x1024, бесплатно. Генерирует быстро, но совершает ошибки: кот без бабочки, вид камеры кота очень близок, две головы кота, сделал градиент глаз желто-синий. Следует дописывать дополнительные запросы и их тестировать.
Prompt: Cute Grey Cat with blue eyes, wearing a yellow bowtie, portrait
Negative prompt: 2 bowtie, more bowties, more cats
Результаты быстрые, интересные, но не соответствуют запросу.
Другие генераторы работают долго. Пишет "This can sometimes такое 3 to 5 minutes при modelе boots up."
Некоторые результаты, которые я тестировал, тоже не были четкими.
Photoshop 25.0 Beta AI
What's new in Photoshop Beta 25?
Задал запрос:
Cute Grey Cat with blue eyes, wearing a bowtie
Тестировал разные результаты, выбрал такой
Увеличивал область, дорабатывал уши, снизу туловище.
Генерирует быстро четко результаты в реалистичном стиле по три варианта с возможностью генерировать другие варианты.
Делает качественные результаты, ракурсы отличаются, изображения не дублируются, генерируются разные идеи. Например, не показывает синюю кроватку на всех изображениях, а предлагает разные реалистичные идеи, которые можно доделать. Даже если сгенерированный матыльок-лижечка другого вида, можно задать новый запрос именно под стилистику этого кроватки, например, "bow tie gold color" или так "bow tie burgundy royal look".
Сбои с пропорциями тела, отсутствие галстука не замечено, не добавляет на задний фон синий или другой цвет.
Различные нейронные сети генерируют разные модели кошек. Тестировавший варианты с разными цветами галстуков, предлагает все верно.
Усложняю запрос:
Cute Dark Grey Cat, blue eyes, wearing yellow bowtie
Генерируются изображения быстро, есть иногда сбои, галстук может быть на голове или где-либо, дефекты соответствия запросу минимальны.
Photoshop 25.0 Beta AI различает породы кошек, усложняю запрос:
Cute Siamese cat, blue eyes, wearing yellow bowtie
Cute British longhair cat, blue eyes, wearing yellow bowtie
Cute British Shorthair cat, blue eyes, wearing yellow bowtie
В последнем зображении доработал глаза, галстук бабочку и ленту.
Если удалить часть изображения галсута и дописать запрос «желтый галстук-бабочка», Photoshop 25.0 Beta AI добавляет часть галсука в выделенной области, понимая, что нужно восстановить часть изображения, не добавляет новое изображение другого галстука в эту область.