Como baixar e instalar o Llama 2 localmente

Como baixar e instalar o Llama 2 localmente
Leitores como você ajudam a apoiar o MUO. Quando você faz uma compra usando links em nosso site, podemos ganhar uma comissão de afiliado. Consulte Mais informação.

A Meta lançou o Llama 2 no verão de 2023. A nova versão do Llama foi ajustada com 40% mais tokens do que o modelo Llama original, dobrando seu comprimento de contexto e superando significativamente outros modelos de código aberto disponíveis. A maneira mais rápida e fácil de acessar o Llama 2 é por meio de uma API em uma plataforma online. No entanto, se você deseja a melhor experiência, é melhor instalar e carregar o Llama 2 diretamente no seu computador.





Com isso em mente, criamos um guia passo a passo sobre como usar Text-Generation-WebUI para carregar um Llama 2 LLM quantizado localmente em seu computador.





Por que instalar o Llama 2 localmente

Existem muitos motivos pelos quais as pessoas optam por executar o Llama 2 diretamente. Alguns fazem isso por questões de privacidade, alguns para personalização e outros para recursos offline. Se você estiver pesquisando, ajustando ou integrando o Llama 2 para seus projetos, acessar o Llama 2 via API pode não ser para você. O objetivo de executar um LLM localmente em seu PC é reduzir a dependência de ferramentas de IA de terceiros e use IA a qualquer hora, em qualquer lugar, sem se preocupar com o vazamento de dados potencialmente confidenciais para empresas e outras organizações.





como remover o protetor de tela de plástico

Dito isso, vamos começar com o guia passo a passo para instalar o Llama 2 localmente.

Etapa 1: instalar a ferramenta de compilação do Visual Studio 2019

Para simplificar as coisas, usaremos um instalador de um clique para Text-Generation-WebUI (o programa usado para carregar o Llama 2 com GUI). Porém, para que este instalador funcione, você precisa baixar a ferramenta de compilação do Visual Studio 2019 e instalar os recursos necessários.



Download: Estúdio Visual 2019 (Livre)

  1. Vá em frente e baixe a edição comunitária do software.
  2. Agora instale o Visual Studio 2019 e abra o software. Depois de aberto, marque a caixa Desenvolvimento de desktop com C++ e clique em instalar.   Convenção de nomenclatura de modelo HuggingFace

Agora que você instalou o desenvolvimento de desktop com C++, é hora de baixar o instalador de um clique Text-Generation-WebUI.





Etapa 2: instalar Text-Generation-WebUI

O instalador de um clique Text-Generation-WebUI é um script que cria automaticamente as pastas necessárias e configura o ambiente Conda e todos os requisitos necessários para executar um modelo de IA.

Para instalar o script, baixe o instalador de um clique clicando em Código > Baixe ZIP.





Download: Instalador de geração de texto-WebUI (Livre)

  1. Depois de baixado, extraia o arquivo ZIP para o local de sua preferência e abra a pasta extraída.
  2. Dentro da pasta, role para baixo e procure o programa de inicialização apropriado para o seu sistema operacional. Execute os programas clicando duas vezes no script apropriado.
    • Se você estiver no Windows, selecione start_windows arquivo em lote
    • para MacOS, selecione start_macos script de concha
    • para Linux, start_linux script de shell.   Baixando o modelo Llama 2 de sua preferência
  3. Seu antivírus pode criar um alerta; Isto é bom. A indicação é apenas uma antivírus falso positivo para executar um arquivo em lote ou script. Clique em Corra de qualquer maneira .
  4. Um terminal será aberto e iniciará a configuração. No início, a configuração fará uma pausa e perguntará qual GPU você está usando. Selecione o tipo apropriado de GPU instalado em seu computador e pressione Enter. Para aqueles sem uma placa gráfica dedicada, selecione Nenhum (quero executar modelos no modo CPU) . Tenha em mente que rodar no modo CPU é muito mais lento quando comparado a rodar o modelo com uma GPU dedicada.   Colocando o modelo Llama 2 na pasta de modelos
  5. Assim que a configuração for concluída, você pode iniciar o Text-Generation-WebUI localmente. Você pode fazer isso abrindo seu navegador preferido e inserindo o endereço IP fornecido no URL.
  6. A WebUI agora está pronta para uso.

No entanto, o programa é apenas um carregador de modelo. Vamos baixar o Llama 2 para iniciar o carregador de modelo.

Etapa 3: Baixe o modelo Llama 2

Há algumas coisas a serem consideradas ao decidir qual iteração do Llama 2 você precisa. Isso inclui parâmetros, quantização, otimização de hardware, tamanho e uso. Todas essas informações serão encontradas indicadas no nome do modelo.

  • Parâmetros: O número de parâmetros usados ​​para treinar o modelo. Parâmetros maiores tornam os modelos mais capazes, mas à custa do desempenho.
  • Uso: Pode ser padrão ou chat. Um modelo de chat é otimizado para ser usado como um chatbot como o ChatGPT, enquanto o modelo padrão é o modelo padrão.
  • Otimização de hardware: Refere-se a qual hardware executa melhor o modelo. GPTQ significa que o modelo é otimizado para rodar em uma GPU dedicada, enquanto GGML é otimizado para rodar em uma CPU.
  • Quantização: Denota a precisão dos pesos e ativações em um modelo. Para inferência, uma precisão de q4 é ideal.
  • Tamanho: Refere-se ao tamanho do modelo específico.

Observe que alguns modelos podem estar organizados de forma diferente e podem até não exibir os mesmos tipos de informações. No entanto, este tipo de convenção de nomenclatura é bastante comum no Abraçando o rosto Biblioteca de modelos, então ainda vale a pena entender.

Neste exemplo, o modelo pode ser identificado como um modelo Llama 2 de tamanho médio treinado em 13 bilhões de parâmetros otimizados para inferência de chat usando uma CPU dedicada.

Para aqueles que executam em uma GPU dedicada, escolha um GPTQ modelo, enquanto para quem usa CPU, escolha GML . Se você quiser conversar com a modelo como faria com ChatGPT, escolha bater papo , mas se você quiser experimentar o modelo com todos os seus recursos, use o padrão modelo. Quanto aos parâmetros, saiba que utilizar modelos maiores proporcionará melhores resultados em detrimento do desempenho. Eu pessoalmente recomendo que você comece com um modelo 7B. Quanto à quantização, use q4, pois serve apenas para inferência.

Download: GML (Livre)

Download: GPTQ (Livre)

Agora que você sabe qual iteração do Llama 2 precisa, vá em frente e baixe o modelo desejado.

No meu caso, como estou executando isso em um ultrabook, usarei um modelo GGML ajustado para chat, call-2-7b-chat-ggmlv3.q4_K_S.bin.

como abrir arquivos com java

Após o término do download, coloque o modelo em geração de texto-webui-main > modelos .

Agora que você baixou seu modelo e o colocou na pasta de modelos, é hora de configurar o carregador de modelo.

Etapa 4: configurar a geração de texto-WebUI

Agora, vamos começar a fase de configuração.

  1. Mais uma vez, abra Text-Generation-WebUI executando o start_(seu sistema operacional) arquivo (veja as etapas anteriores acima).
  2. Nas guias localizadas acima da GUI, clique em Modelo. Clique no botão atualizar no menu suspenso do modelo e selecione seu modelo.
  3. Agora clique no menu suspenso do Carregador de modelo e selecione AutoGPTQ para aqueles que usam um modelo GTPQ e transformadores c para aqueles que usam um modelo GGML. Por fim, clique em Carregar para carregar seu modelo.
  4. Para usar o modelo, abra a guia Chat e comece a testar o modelo.

Parabéns, você carregou o Llama2 com sucesso em seu computador local!

Experimente outros LLMs

Agora que você sabe como executar o Llama 2 diretamente em seu computador usando Text-Generation-WebUI, também poderá executar outros LLMs além do Llama. Basta lembrar as convenções de nomenclatura dos modelos e que apenas versões quantizadas de modelos (geralmente com precisão q4) podem ser carregadas em PCs normais. Muitos LLMs quantizados estão disponíveis no HuggingFace. Se você quiser explorar outros modelos, pesquise TheBloke na biblioteca de modelos do HuggingFace e você encontrará muitos modelos disponíveis.