Notebookcheck Logo

Hugging Face anuncia o novo modelo de linguagem de visão de código aberto SmolVLM

A Hugging Face anuncia o novo modelo de linguagem de visão de código aberto SmolVLM (Fonte da imagem: Hugging Face)
A Hugging Face anuncia o novo modelo de linguagem de visão de código aberto SmolVLM (Fonte da imagem: Hugging Face)
A Hugging Face lançou um modelo de linguagem de visão leve e de código aberto, o SmolVLM, que, segundo a empresa, foi criado para ser eficiente e rápido.

A Hugging Face, um repositório de aprendizado de máquina, conjuntos de dados e ferramentas de IA, lançou https://huggingface.co/blog/smolvlm um modelo de linguagem de visão de código aberto que é leve e foi desenvolvido para ser eficiente e rápido. Os modelos de linguagem de visão (VLM) podem entender tanto o texto quanto a entrada visual.

O modelo está disponível para uso comercial com pipelines de treinamento abertos, o que significa que os conjuntos de dados, o código e os métodos usados para treinar o modelo estão disponíveis para o público. A Hugging Face tem três variantes do modelo: SmolVM-Base, SmolVM-Synthetic e SmolVM Instruct.

O SmolVM-Base foi projetado para ajuste fino downstream, o que significa que pode ser adotado e treinado para tarefas específicas. O Synthetic é treinado com dados artificiais e não usa conjuntos de dados do mundo real, e o Instruct pode ser "usado imediatamente em aplicativos interativos para o usuário final"

A Hugging Face diz que o SmolVM requer apenas 5,7 GB de RAM de GPU, o que o torna menor e mais eficiente do que concorrentes como PaliGemma 3B, InternVL2 2B e Qwen2-VL-2B. Isso permite que ele seja executado em laptops com VRAM limitada.

Ele também é mais eficiente em termos de tokens em comparação com outros modelos. Os tokens medem a velocidade e a eficiência de um modelo, e o SmolVM pode codificar uma imagem de 384x384 em 81 tokens, em comparação com o Qwen2-VL, que usa 16k tokens. O modelo também requer menos potência computacional e RAM para ser executado.

A Hugging Face é que hospeda uma demonstração criada com base no SmolVM-Instruct com um script de treinamento supervisionado para qualquer pessoa experimentar.

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Arquivo de notícias 2024 12 > Hugging Face anuncia o novo modelo de linguagem de visão de código aberto SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)