Notebookcheck Logo

Google anuncia novos modelos de linguagem de visão PaliGemma 2

Google anuncia novos modelos de linguagem de visão PaliGemma 2 (Fonte da imagem: Google)
Google anuncia novos modelos de linguagem de visão PaliGemma 2 (Fonte da imagem: Google)
Os modelos PaliGemma 2 do Google estão disponíveis em vários tamanhos e resoluções, e podem compreender textos, imagens e vídeos. O Google também está divulgando a capacidade de criar legendas detalhadas e contextualmente relevantes.

O Google anunciou a continuação do modelo de linguagem visual PaliGemma, lançado em maio de 2024. O PaliGemma 2 está disponível em vários tamanhos que variam de 3 bilhões de parâmetros a 28 bilhões e vários tamanhos de resolução de até 896px.

A empresa afirma que o modelo apresenta "desempenho líder no reconhecimento de fórmulas químicas, reconhecimento de partituras musicais, raciocínio espacial e geração de relatórios de raios X do tórax"

Ele também tem recursos de legenda longa com "legendas detalhadas e contextualmente relevantes para imagens, indo além da simples identificação de objetos para descrever ações, emoções e a narrativa geral da cena"

Os novos modelos serão oferecidos como uma "substituição imediata" em vários tamanhos sem "grandes modificações no código" Os modelos pré-treinados estão disponíveis em Hugging Face e Kaggle e podem ser baixados e testados gratuitamente por qualquer pessoa. Ele também é compatível com várias estruturas, incluindo Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp.

O Google diz que a "flexibilidade do PaliGemma 2 torna simples o ajuste fino para tarefas e conjuntos de dados específicos, permitindo que o senhor adapte seus recursos às suas necessidades específicas"

Fonte(s)

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2024 12 > Google anuncia novos modelos de linguagem de visão PaliGemma 2
Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)