Stability anuncia Stable Diffusion 3, um construtor de imagens de IA de próxima geração

Mais Zoom / Difusão Estável 3ª Geração com Vetor: Retrato de estúdio close-up de um camaleão sobre fundo preto.

Stability AI anunciou na quinta-feira Stable Diffusion 3, um modelo de síntese de imagem de próxima geração com pesos abertos. Ele segue seus antecessores criando imagens detalhadas de vários assuntos com qualidade e precisão aprimoradas na criação de texto. O breve anúncio não foi acompanhado de uma manifestação pública, mas a estabilidade foi Abrir lista de espera Hoje é para quem quiser experimentar.

Stable diz que sua família de modelos Stable Diffusion 3 (que pega descrições de texto chamadas “prompts” e as transforma em imagens correspondentes) varia em tamanho de 800 milhões a 8 bilhões de parâmetros. A escala permite que diferentes versões do modelo sejam executadas localmente em uma variedade de dispositivos – de smartphones a servidores. O tamanho do parâmetro corresponde aproximadamente à capacidade do modelo em termos da quantidade de detalhes que ele pode gerar. Modelos maiores também requerem mais VRAM nos aceleradores de GPU para funcionar.

Desde 2022, vimos Stable lançar sua evolução de modelos de geração de imagens de IA: Stable Diffusion 1.4, 1.5, 2,0, 2.1, XL, XL Turbo e agora 3. A estabilidade se tornou conhecida por fornecer uma alternativa mais aberta aos modelos proprietários de síntese de imagem, como o DALL-E 3 da OpenAI, embora não seja isento de controvérsia devido ao uso de treinamento protegido por direitos autorais. dados. Preconceito e potencial para abuso. (Isto levou a processos judiciais não resolvidos.) Os modelos de difusão em estado estacionário eram ponderados e de código aberto, o que significa que os modelos podiam ser executados localmente e ajustados para alterar os seus resultados.

Geração de Difusão Estável 3 com Reivindicação: Arte épica de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro dizendo “Difusão Estável 3” feito de energia colorida.
Imagem gerada por IA de uma avó vestindo um moletom “Vá grande ou vá para casa” criado por Stable Diffusion 3.
Difusão estável de terceira geração com aviso: Três garrafas de vidro transparente sobre uma mesa de madeira. O da esquerda tem um líquido vermelho e o número 1. O do meio tem um líquido azul e o número 2. O da direita tem um líquido verde e o número 3.
Imagem gerada por IA com Stable Diffusion 3.
Difusão Estável de terceira geração com prompt: Um cavalo se equilibra em cima de uma bola colorida em um campo com grama verde e uma montanha ao fundo.
Propagação de natureza morta de terceira geração com aviso: natureza morta temperamental de abóboras variadas.
Difusão Estável de 3ª geração com aviso: Uma pintura de um astronauta montando um porco usando um tutu segurando um guarda-chuva rosa, no chão ao lado do porco está um tordo usando uma cartola e no canto estão as palavras “Difusão Estável”.
Difusão Estável de 3ª Geração com a Reivindicação: Sobre a mesa da cozinha está um pano bordado que diz “Boa Noite” e um bebê tigre bordado. Ao lado do pano há uma vela acesa. A iluminação é fraca e dramática.
Difusão Estável de 3ª Geração com prompt: Imagem de um computador desktop dos anos 90 em uma mesa de trabalho, com “Olá” escrito na tela do computador. Na parede ao fundo vemos lindos grafites com o texto “SD3” bem grande na parede.

Em relação às melhorias técnicas, o CEO da Stability, Imad Mushtaq, disse livros No

READ OpenAI lança versão 3 do DALL-E

Como disse Mostaque, a família Stable usa Diffusion 3 Estrutura dos transformadores de difusãoum novo método de criação de imagens usando inteligência artificial que substitui os habituais blocos de construção de imagens (por exemplo, Arquitetura UNET) para um sistema que funciona em pequenos pedaços da imagem. Este método é inspirado em transformadores, que são bons para lidar com padrões e sequências. Essa abordagem não apenas aumenta a eficiência, mas também produz imagens de maior qualidade.

Difusão Estável 3 também é usada”Correspondência de fluxo“, uma técnica para criar modelos de inteligência artificial que podem criar imagens aprendendo como passar de um ruído aleatório para uma imagem suavemente estruturada. Ele faz isso sem ter que simular cada etapa do processo e, em vez disso, concentra-se na direção ou fluxo geral que deve a criação da imagem segue.

Comparando a saída entre DALL-E 3 e Stable Diffusion 3 da OpenAI com o roteador, "Imagem noturna de carro esportivo com texto "SD3" Ao lado, o carro circula em uma pista de corrida em alta velocidade, com uma enorme placa de trânsito escrita nele — Mais Zoom / Comparação da produção entre o DALL-E 3 da OpenAI e o Stable Diffusion 3 com a afirmação “Imagem noturna de um carro esportivo com o texto 'SD3' na lateral, carro em uma pista de corrida em alta velocidade, enorme placa de trânsito com o texto 'Mais rápido '.”

Não temos acesso ao Stable Diffusion 3 (SD3), mas pelas amostras que encontramos postadas no site Stable e nas contas de mídia social associadas, as Gerações parecem aproximadamente comparáveis a outros modelos modernos de fotomontagem no momento. Incluindo o já mencionado DALL-E 3, Adobe Firefly, Imagine com Meta AI, Midjourney e Google Imagen.

O SD3 parece lidar muito bem com a geração de texto em exemplos fornecidos por outros, que provavelmente foram escolhidos a dedo. A geração de texto tem sido um ponto fraco específico nas montagens de imagens anteriores, portanto, melhorar essa capacidade em formato livre é um grande negócio. Além disso, a precisão da velocidade (quão fielmente segue as descrições nas instruções) parece semelhante ao DALL-E 3, mas ainda não testamos isso.

READ Desenvolvedor do Pokémon GO diz que os relatórios mensais de lucro na mínima de cinco anos estão 'incorretos'

Embora o Stable Diffusion 3 não esteja amplamente disponível, o Stability afirma que, assim que o teste for concluído, seus pesos poderão ser baixados gratuitamente e executados localmente. “Esta fase de visualização, como acontece com os modelos anteriores, é crítica para reunir ideias para melhorar seu desempenho e segurança antes do lançamento aberto”, escreveu Stability.

A estabilidade foi experimentada recentemente com uma variedade de arquiteturas de montagem de imagens. Além do SDXL e SDXL Turbo, a empresa anunciou na semana passada Cascata estávelque usa um processo de três estágios para sobrepor texto a uma imagem.

Listando imagem por Imad Mushtaq (IA para Estabilidade)

Caetano Marquese

“Viciado em zumbis amigo dos hipsters. Aspirante a solucionador de problemas. Entusiasta de viagens incuráveis. Aficionado por mídia social. Introvertido.”

Uma empresa afirma que Barbie pode superar o vício em smartphones

Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem

O próximo mini drone 4K da DJI cabe na palma da sua mão

Relatório: Kroger Co. aumenta os preços do leite e dos ovos além dos custos da inflação, testemunha executivo

Alfonso Cuaron trata sua série ‘Denial’ da Apple TV + como um filme

Austrália limita o direito dos funcionários de se desconectarem da Internet

Uma empresa afirma que Barbie pode superar o vício em smartphones

Deixe um comentário Cancelar resposta

More Stories

Uma empresa afirma que Barbie pode superar o vício em smartphones

Os jogadores reclamam do longo tempo de matchmaking no PS5 conforme os números do Concord caem

O próximo mini drone 4K da DJI cabe na palma da sua mão

You may have missed

Relatório: Kroger Co. aumenta os preços do leite e dos ovos além dos custos da inflação, testemunha executivo

Alfonso Cuaron trata sua série ‘Denial’ da Apple TV + como um filme

Austrália limita o direito dos funcionários de se desconectarem da Internet

Uma empresa afirma que Barbie pode superar o vício em smartphones