No contexto de Inteligência Artificial (IA)
Generativa multimodal, considere as seguintes
afirmações:
I. O modelo CLIP (Contrastive Language-Image Pretraining) foi desenvolvido para entender a relação entre imagens e definições em texto. Ele aprende comparando pares de imagens e textos encontrados na internet, permitindo que o sistema encontre imagens relevantes a partir de uma descrição em linguagem natural, sem precisar que o usuário tenha previamente classificado cada imagem manualmente.
II. O Stable Diffusion é uma IA generativa especializada em criar imagens foto realistas e arte a partir de texto de forma eficiente a partir de descrições de textos. Em vez de processar imagens completas, que que exige computação forte, ele trabalha em uma representação otimizada das imagens, gerando resultados de qualidade com menor custo computacional.
III. O modelo GPT-4 Vision é um modelo de Inteligência Artificial multimodal consegue "ler" conteúdo visual e entenda o contexto de imagens, fotografias, gráficos, captura de telas e documentos convertendo pedaços da imagem em informações numéricas compatíveis com o processamento de texto. Essencialmente, o sistema trata as imagem inseridas na conversa, permitindo análise integrada de texto e imagem.
Após análise das afirmativas, assinale a alternativa correta:
I. O modelo CLIP (Contrastive Language-Image Pretraining) foi desenvolvido para entender a relação entre imagens e definições em texto. Ele aprende comparando pares de imagens e textos encontrados na internet, permitindo que o sistema encontre imagens relevantes a partir de uma descrição em linguagem natural, sem precisar que o usuário tenha previamente classificado cada imagem manualmente.
II. O Stable Diffusion é uma IA generativa especializada em criar imagens foto realistas e arte a partir de texto de forma eficiente a partir de descrições de textos. Em vez de processar imagens completas, que que exige computação forte, ele trabalha em uma representação otimizada das imagens, gerando resultados de qualidade com menor custo computacional.
III. O modelo GPT-4 Vision é um modelo de Inteligência Artificial multimodal consegue "ler" conteúdo visual e entenda o contexto de imagens, fotografias, gráficos, captura de telas e documentos convertendo pedaços da imagem em informações numéricas compatíveis com o processamento de texto. Essencialmente, o sistema trata as imagem inseridas na conversa, permitindo análise integrada de texto e imagem.
Após análise das afirmativas, assinale a alternativa correta: