Почему в шедевр уме плохое качество
У меня плохое качество изображения/ рассыпается картинка
Почему рассыпается картинка?
Причиной искажения и рассыпания картинки являются сетевые проблемы: потери пакетов, некорректно работающее сетевое оборудование (сетевая карта, роутер), не оптимизирован маршрут интернет трафика.
Чтобы проверить, возникает ли проблема с изображением из-за нестабильной работы Интернет-соединения, пожалуйста, откройте панель с данными стриминга (Ctrl+F1) и проверьте:
Bitrate — отображает ширину и пропускную способность вашего интернет канала.
Frames — отображает количество потерь сетевых пакетов и процент потеряных кадров на вашем устройстве.
Ping — задержка соединения вашего ПК/ноутбука с сервером, на котором запущена игра.
На примере выше все эти значения очень высокие, поэтому мы можем наблюдать очень плохое качество изображения
Что сделать, чтобы улучшить качество изображения и стабилизировать Интернет-соединение?
Иногда, нижеуказанные рекомендации не могут полностью исправить возникшие проблемы с качеством сети, т.к. неполадки могут быть со стороны провайдера, который предоставляет вам Интернет. Если после внесения всех изменений у вас всё равно очень высокий процент сетевых потерь, пожалуйста, обратитесь к вашему провайдеру для более детальной диагностики.
Если вы подключены по кабелю:
1. Перезагрузите роутер (отключить на 10-15 секунд из розетки)
2. Переподключите кабель в ваше устройство и подключите в любой другой порт на роутере.
3. Проверьте целостность кабеля на наличие физических повреждений, перегибов.
4. Поменяйте кабель которым подключаетесь к роутеру.
5. Отключите загрузку файлов и остановите просмотр роликов онлайн, закройте лишние вкладки в браузере и приложения, отключите антивирус. (антивирусы могут сканировать трафик, уменьшая тем самым пропускную способность)
6. Установите\измените пароль на Wi-Fi точку, т.к. все подключенные к роутеру устройства используют ресурсы одного интернет канала.
7. Отключите другие устройства, подключенные к вашей сети (ноутбуки, телефоны, телевизор и т.д.)
Если вы подключены по Wi-Fi:
1. Подключитесь к роутеру через кабель, если есть такая возможность
2. Перезагрузите ваше устройство и роутер (отключить на 10-15 секунд из розетки)
3. Приблизьте роутер или подойдите ближе к нему
4. Отключите загрузку файлов и остановите просмотр роликов онлайн, закройте лишние вкладки в браузере и приложения.
5. Установите \ измените пароль на Wi-Fi точку, т.к. все подключенные к роутеру устройства используют ресурсы одного интернет канала
6. Отключите другие устройства, подключенные к вашей сети (ноутбуки, телефоны, телевизор и т.д.)
7. Отключите все устройства, подключенные по Bluetooth к вашему устройству. Подключеные колонки, наушники или геймпады могут создавать дополнительные помехи для Wi-Fi подключения.
9. Смените частоту W-Fi сети (2.4 ГГЦ -5 ГГц и наоборот) инструкция для проверки.
На моём примере я отключил все от своей Wi-Fi сети, закрыл браузер и переподключился на частоту 5ГГц. Качество изображения улучшились в разы:
Иногда, вышеуказанные рекомендации не могут полностью исправить возникшие проблемы с качеством сети, т.к. неполадки могут быть со стороны провайдера, который предоставляет вам Интернет.
Если после внесения всех изменений у вас всё равно очень высокий процент сетевых потерь, пожалуйста, обратитесь к вашему провайдеру для более детальной диагностики.
Большое сравнение нейросетей
В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2 (далее буду называть его DALL-E), Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу. Штош, поехали. Содержание (кликабельно):
- Цена и доступность
- Порог вхождения
- Запрещёнка
- Промпты
- Догенерация и постобработка
- Доп. функции. Размер и качество на выходе
- Лицензии
- Заключение
Цена и доступность
Здесь всё довольно просто.
- DALL-E — платный, каждые 115 генераций за 15$, оптом не дешевле. Предоставляет 14 бесплатных генераций каждый месяц только старым пользователям (которые зарегались в Далли до 6 апреля 2023г.), новые должны платить без вариантов. Для пользователей за пределами России легкодоступна в браузере. Для пользователей на территории России — недоступна, нужно заморочиться с иностранным номером.
- Midjorney — платный, есть несколько тарифов: 10, 30 и 60 баксов. Отличаются они количеством часов генераций и функцией приватности в самом дорогом тарифе. Что это значит? Ваши картинки никто не увидит, они не попадут в общую ленту и их нельзя будет найти по поиску. Доступ через дискорд исайт. Пользователям с территории России нужно искать обходные пути для оплаты.
- Stable Diffusion — бесплатный. Вариантов доступа множество. Есть базовая консоль, в которой всё пишется кодом и надо быть прогером. Есть привычный всем Automatic1111 — консольный интерфейс с кучей настроек, надо кааапельку шарить в гитхабе и коде. Он требует дохрена физической и видеопамяти для работы. Есть сайты, например, бесплатный (результаты так себе) или платный от создателей Стейбла. А ещё Гугл-коллаб с Automatic, генерация происходит на стороне Гугла.
- Кандинский — бесплатный. Вариант доступа — через сайт.
UPD 24.05.23: ещё есть приложение Сбер Салют, к которому подключён Кандинский под именем Далли (ЛОЛ), а также Cбер оживил свой ruDALL-E и у них есть официальный бот в телеге. Помимо этого, сбер создал ГигаЧат, куда также подрубил генерацию картинок, но пока что доступ дают только в закрытом канале телеги. - Шедеврум — бесплатный. Доступен только через приложение.
DALL-E
Midjorney
Stable
Кандинский
Шедеврум
Оценки по блоку основаны, в частности, на доступе для российских юзеров
Порог вхождения
В этом блоке пойдёт речь о дружелюбности системы к юзеру и простоте/сложности использования.
- DALL-E — максимально простое введение подсказок (промптов), старается работать в контексте. Документацию в целом тоже найти несложно, она есть на главной странице, но она больше предназначена для их открытого кода, а не для юзеров, инфа очень сжата. Есть блок «хелп» на странице с генерацией, он плохо работает — это бот с набором вопрос-ответов. Но есть отдельная страница «хэлпа» с более развёрнутыми ответами, как будто они прописывают правила на ходу.
- Midjorney. На данный момент существует версия 5.1, которая работает в контексте, а вот версия 4 и более ранние были довольно капризны к промптам, требуя строгого порядка тегов. Документация большая и понятная, дружелюбная к юзеру, доступна с главной страницы сайта.
- Stable Diffusion — ад на земле. Ремар очка: я буквально по канону прошла все стадии от отрицания до принятия, и на этапе гнева мне хотелось разбить комп. Так вот, Стейбл — это консоль, которая требует довольно конкретных тегов (токенов). Нужно вводить не только обычные промпты, но и отрицательные. Здесь множество правил и нюансов, которые просто надо знать. Документация есть у Automatic1111, но там больше про интерфейс и код. Документация самого Стейбла — чисто про код, рядовому юзеру типа меня там нечего делать. Базовой версией Стейбла пользоваться бесполезно, она очень плоха, нужно дополнительно скачивать модели (как моды на игры) которые весят в среднем 2–5 гигов, дополнительные поднастройки. Чтобы разобраться в этом, нужно потратить ОГРОМНОЕ количество времени.
- Кандинский. По нажатию знака вопроса выдаёт это: «Введите описание изображения и нажмите Создать». Никакой другой инфы и документации я не нашла. Для тех, кто уже работал с нейронками это ок, для новых юзеров — нет, это не френдли.
- Шедеврум. Тоже самое, что у Кандинского, но есть «правила» на пару абзацев (из которых почти ничего не ясно). Хотя в целом Шедеврум довольно прост, в том числе благодаря ленте в приложении.
Запрещёнка
Этот блок тесно связан с предыдущим, но его необходимо разобрать отдельно прежде чем приступить к генерации.
- DALL-E. Нет списка слов, но запретные темы развёрнуты в правилах: Ненависть, Насилие, Секс, Шок-контент (человеческие выделения, плохие жесты), Наркотики, Политика, Болезни. Хочется спросить: а ваще чота можна? Ну, кроме просто людей и кроликов каких-то. За нарушение правил грозит бан (правда неясно, сколько раз надо нарушить)
- Midjorney. Нет списка слов, есть пояснения по темам в документации. Из очевидных запретов: контент для взрослых, сцены насилия и оторванные конечности. Версия 5.1 вроде должна была ввести ограничения на знаменитостей. Но я заметила только, что сходство некоторых ухудшилось или пропало (Трамп по прежнему идеален). За использование запретных слов — бан (коммьюнити говорит о 25 попытках, официальных данных нет, как и официального списка слов).
- Stable Diffusion. Начнём с того, что версий несколько. В 1.5 ограничений практически нет или их легко обойти. А вот в 2.0 создатели вычистили из набора данных весь контент для взрослых, убрали имена художников, потому что многие из них выступали против нейронок. Официальной инфы об этом нет, только новости, форумы и обзоры юзеров.
- Кандинский. Нет документации — нет информации. Всё постигается сугубо опытом. Например, слово «обнажённый» можно, «кровь» можно, а вот на слово «кишки» генерит поле с цветочками и пишет «Запрос не соответствует правилам работы». Дали бы хоть эти правила почитать что ли.
- Шедеврум. Запреты следующее: Фамилии, Политика и религия, 18+ контент, Жестокость и Насилие. Пояснений нет, только перечисление. И вот в чём прикол: фамилии под запретом настолько, что нельзя писать даже бренды. Я не могу ввести «мужчина в костюме Версаче», нейронка не пропустит это. И ещё я выявила, что нельзя обращаться к расовой принадлежности. Нельзя «азиатский мужчина», надо: «кореец» или «китаец». Есть это в правилах? нет.
Пожалуй, самая спорная графа для оценки. С одной стороны, какая-то цензура нужна, но ни одна нейронка не реализовала её достаточно хорошо и не выдала просто список запрещённых слов в виде таблицы. Решила, что снижу оценки за силу цензуры, но накину баллов за объяснения. Шедеврум получает 0 за адский кринж со всех сторон.
Промпты
И вот, мы пришли к самому интересному. Я возьму не просто одинаковые промпты. но и буду описывать то, сколько требуется доработок до удобоваримого материала (если таковой вообще предусмотрен).
Итак, базовый промпт: a man standing in front of a pink flowers, inspired by Nikolaj Abraham Abildgaard, official versace editorial, exquisite and handsome wings, vogue magazine cover, asian male, darius zawadzki and tom bagshaw, hermes ad, prideful look
Этот промпт я получила с помощью картинки подписчика моего канала и функции /describe Миджорни.
Как можно заметить, все они нацелены на фотореализм, но разберём по порядку:
- DALL-E — ноль изменений, промпт взят как есть. Приятно, что это самая живая пикча из всех на первый взгляд. Далли выдаёт 4 пикчи при генерации
- Midjourney — в обоих версиях тоже без изменений промпта. Здесь сразу покажу, что картинки получаются разными при генерации, но похожими друг на друга. Миджа выдаёт 4 картинки, из которых можно кнопкой U получить увеличенную версию или кнопкой V получить варианты одной пикчи.
- Stable Diffusion. А вот тут начинаются проблемы. Как я говорила выше, нельзя просто сразу «из коробки» получить то, что хочешь. Сначала надо скачать модель под задачу. И я это сделала, скачала несколько фотореалистичных (если надо, сделаю отдельный пост про них в канале). Давайте посмотрим на картинку, которая получается при голом промпте:
Адский кринж, неправда ли? Дело в том, что в промпт нужно добавить:
- Уточнение фотореализма: (8k, RAW photo, highest quality) обязательно в скобочках, это для демонстрации важности тегов.
- Негативный промпт. Здесь такой прикол: нужно заносить сюда всё, что НЕ нравится на картинке. Мне лично это далось тяжело. Концепция «я не хочу, чтобы были кривые пальцы» ломает мозг. Но это лирика, продолжим, я взяла список типовых слов для негативного промпта: lowres, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, signature, bad anatomy, extra legs, extra arms, extra fingers, poorly drawn hands, poorly drawn feet, disfigured, out of frame, tiling, bad art, deformed, mutated, blurry, fuzzy, misshaped, mutant, gross, disgusting, ugly, watermark, watermarks. Получаем такую картинку. Но это не предел.
Можно это улучшить ещё больше. Но это уже радикальные изменения промпта. Добавляем следующее: (dark shot:1.17), epic realistic, art, (hdr:1.5), (muted colors:1.2), hyperdetailed, (artstation:1.5), warm lights. Што это за цифры? Это веса. В Миджорни работают похожим образом, только без скобок и через двойное двоеточие. Вот данные конкретные теги предназначены для создания артовой картинки, но в разных моделях даёт разный результат, мне выдал такой:
Это достаточно похоже на фотку, результат меня устроил, идём дальше.
- Кандинский. Промпт не менялся и, как вы можете заметить, картинки похожи на 4-ю версию Миджи. Это интересная тема: в зависимости от стиля или промпта часть картинок будет похожа на Далли или Стейбл (у которых открытый код), а часть — на Миджорни (код которой не раскрывается), так что мне крайне любопытно, как они это реализовали. Пересыл делают что ли. При длинном промпте все картинки похожи друг на друга, почти идентичны:
Кандинский по дефолту имеет 17 стилей, но разумеется можно экспериментировать. В отличие от иностранных сервисов, поддерживает русский язык.
- Шедеврум. Здесь прям адуха. Из-за ограничений промпт пришлось сократить вполовину: man, pink flowers on the background, exquisite and beautiful wings, vogue magazine cover, korean, close-up shooting, proud look. Получилось это:
И да, это оригинальный размер. В целом, очень похоже на остальные картинки, и это хорошо. Как будто бы можно получить желаемое изображение с минимумом усилий. Но тотальное количество ограничений, с которыми я столкнулась — это плохо. Оно говорит об отсутствии контроля. Порой стиль того или иного бренда для изображения критичен, он даёт свой особый вайб, который нельзя передать другими словами.
Приложение Нейросеть Яндекса Шедеврум — отзыв
«Моя твоя не понимать» или приложение Шедеврум от Яндекса
Опыт использования:
несколько дней
Команда Яндекса объявила о выпуске новой фирменной нейросети для генерации картинок по текстовым запросам пользователей «Шедеврум». Сегодня на рынке уже существуют нейросети, которые доступны обычным пользователям, в том числе и в российском сегменте. Но сегодня речь пойдет о новом проекте Яндекса.
Спустя несколько дней тестирования и проверки различных запросов можно уже делать первые выводы.
Итак, вот так нас встречает приложение в AppStore:
Приложение в магазине
1. Интерфейс
Главный рздел
Открывая приложение нас встречает приятный интерфейс в стиле Яндекса. Сначала показалось, что я случайно скачал Дзен. Два основных раздела «Недавние» и «Лучшие», кнопка создания и переход на вкладку аккаунта. Уже на данном этапе выделяем основные моменты:
- Простой и понятный интерфейс
- Черно-белый привычный фирменный стиль
- Сразу видим шедевры других пользователей
2. Функционал
Основной раздел «Недавние» — не лучший способ показать преимущества новой нейросети. Пользователи генерируют различные изображения, но удачными назвать их нельзя. Сразу в глаза бросается большое количество неудачных вариантов: плохое качество и плохая прорисовка, смазанные кадры.
Нажимаем на плюсик в верхнем углу экрана и сразу нам предлагают ввести запрос. В этом поле вводим любой набор слов, интересные идеи, смешные словосочетания и любой абсурд.
Экран ввода
Переходим на вкладку «Лучшие» и видим самые интересные варианты. Тут уже получаем качественный контент: милые животные, интересные композиции и правдоподобные изображения. Хотя на первом месте за все время будет вот такое вот изображение, которое высмеивает неспособность нейросетей рисовать руки. Яндекс Шедеврум эта проблема тоже не избежала.
Интересный контент
Попробуем вывести основные моменты на данном этапе:
- Смотрим генерации других пользователей
- На вкладке «Лучшие» стоит задержаться подольше
- Создать контент очень просто и доступно
3. Генерация
Переходим к самому главному — созданию своего шедевра. Нажимаем плюсик и пишем запрос:
В моем примере самый простой запрос, хотя Вы можете и проявить фантазию. Далее нам предалагют подождать минуту (в аналогичных сервисах это время составляет обычно 3 минуты).
Спустя немного времени перед нами появляется 4 варианты:
Выбираем понравившиеся и публикуем, либо редактируем/удаляем. После публикации изображение попадает в уже известный нам раздел «Недавние».
Мой шедевр в ленте
Теперь его могут увидеть другие пользователи, можно поделиться или перейти на саму картинку и сохранить ее к себе в галерею. Еще можно повысить качество, но разницы я особо не заметил. Видимо должно появляться через время.
Повышаем качество
Теперь перейдем к описанию качества генерации:
- Смазанные моменты
- Большая зернистость
- Смазывает лица, руки, части тел
- Сложные запросы — это не сюда, просто сгенерирует по одному слову
- Ошибки перевода: видимо алгоритм переводит с русского на английский, а потом в изображение
4. Подведение итогов:
Таким образом, побаловаться можно, но надолго это приложение не затянет.
«Шедеврум»: полный анализ нейросети «Яндекса», которая пока мало что умеет
«Шедеврум», ставший самым скачиваемым приложением в appstore и googleplay — очень и очень сырой стартап Яндекса. Сеть пока плохо справляется с поставленными задачами, но я уверен, что все впереди, Сейчас я объясню и покажу, почему.
Генерация «Шедеврума», идеально характеризующая сам «Шедеврум» в текущей фазе. Промт: Дуэт вкуса и запаха. Автор генерации: PiterPain87
Автор текста — создатель телеграм-канала «Нейронутые». Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.
На момент написания статьи, среднее время ожидания генерации составляло 2 минуты. Предполагаю, что этот показатель сильно возрастет в ближайшее время.
Если вы подписаны на мой аккаунт, то вы знаете, что я очень много работаю с Midjourney. Я считаю эту сеть самой продвинутой среди всех продуктов по генерации изображений, которые есть на рынке. Но сегодня я тестирую «Шедеврум» — чтобы показать вам, что умеет эта сеть (спойлер — кое-что все-таки умеет), и почему этот продукт еще очень сырой.
Итак, «Шедеврум» — это приложение. Первый вопрос — почему только приложение? Я очень много работаю с генерациями и многие использую для работы, которая происходит с ноутбука.
А значит, что экосистема работы (в случае, если бы я пользовался «Шедеврумом») выглядела так: я генерю картинку в своем смартфоне, перекидываю картинку на комп и только потом делаю с ней что-то (например, дорабатываю в Photoshop). Это неудобно. Продукт в текущем исполнении — не более, чем игрушка для массового пользования. Но точно не инструмент для агентств, профессионалов дизайна и т.д.
Все это можно было бы принять, если бы «Шедеврум» блестяще справлялся со своей первостепенной задачей: генерил потрясающие изображения — так, как это делает, например, упомянутая сеть Midjourney. Увы, тут все очень плохо.
Яндекс лихорадочно выкатил «Шедеврум» — нейросети на хайпе, нужно было что-то выкатывать, причем «здесь и сейчас». Пока все плохо.
Промт: мужчина целует женщину
Однако, этот текст претендует на право зваться объективным разбором. Так что я напомню что первая версия Midjorney тоже генерила очень плохие картинки. Давайте я напомню, как все было на самом старте, забив тот же промт «мужчина целует женщину», выставив в настройках первую версию Midjourney (/settings —> Version 1)
Промт: Man Kissing a woman (MJ Version 1)
А теперь забьем этот же промт в Mj версии 5:
Промт: Man Kissing a woman (MJ Version 5)
Вывод очевиден: заявления, что «Шедеврум» — это провал Яндекса (я видел такие отзывы в соцсетях) — это абсурд. Все сравнивают «младенца» с матерым «волком». Я показал, что Midjourney на старте была также неумела, как «Шедеврум». Чтобы вы убедились, что инженеры продукта проделали неплохую работу, я сделаю еще пару сравнительных тестов: показав генерации «Шедеврума» и сравнив их с генерациями Midjourney версии 1.
Промт: гребешки с зеленой спаржей, гастрономическая подача
А теперь посмотрим, что нам сгенерит Midjourney версии один по тому же запросу: