Com o crescente controle sobre o uso de certos modelos de inteligência artificial em diversas regiões, muitos usuários estão buscando formas de executar modelos poderosos como o DeepSeek localmente. Isso não só permite que você contorne restrições geográficas (como os banimentos em alguns países), mas também garante que seus dados não sejam armazenados nos servidores de terceiros.
Se você quer rodar o DeepSeek sem depender de servidores externos e sem se preocupar com a privacidade, existem algumas opções que não são tão eficazes devido aos hardware limitado das nossas máquinas. Neste artigo, vamos explorar como executar esses modelos localmente, e abordaremos como garantir que você use sua GPU para otimizar o desempenho.
1. Rodando DeepSeek com LM Studio
Uma das maneiras mais fáceis de rodar o modelo DeepSeek localmente é usando o LM Studio. Ele permite que você baixe e execute modelos de linguagem como o DeepSeek diretamente no seu computador.
Passo 1: Baixar e Instalar o LM Studio
Visite o site oficial do LM Studio e faça o download da versão mais recente: LM Studio Download
Após o download, siga o processo de instalação padrão para o seu sistema operacional.
Passo 2: Carregar o Modelo DeepSeek
Abra o LM Studio e clique em Discover:
Após isso, basta procurar o modelo que você deseja rodar, no caso o DeepSeek R1
Agora basta só clicar em Download e esperar o modelo ser baixado. Com o modelo baixado, clique em Chats, para carregar o seu modelo:
Agora é ajustar a configuração (configure do jeito que preferir) e clique em Load Model:
Agora é só começar a conversar com o modelo!
Esse método é simples e pra quem não tem muita experiências com aplicações em linha de comando.
⚠️Não esqueça de ejetar o modelo quando terminar de usar para que ele não fique carregado na memória do seu computador!
2. Rodando DeepSeek com Ollama
Outra maneira eficiente de executar DeepSeek localmente é usando o Ollama, uma plataforma que facilita o uso de modelos de linguagem poderosos. O Ollama oferece uma interface de linha de comando amigável.
Passo Opcional Para usuários do WSL
O CUDA Toolkit é necessário para usar a GPU no WSL. Para instalá-lo, siga as instruções do site oficial da NVIDIA: CUDA Toolkit para WSL.
Passo 1: Baixar e Instalar o Ollama
Acesse o site oficial do Ollama para baixar a versão adequada ao seu sistema operacional: Ollama Download
Realize a instalação conforme as instruções.
Passo 2: Rodar DeepSeek com o Ollama
Após a instalação, você pode rodar o modelo DeepSeek R1 1.5b com o seguinte comando:
ollama run deepseek-r1:1.5b
Atenção: É possível rodar qualquer modelo disponível em https://ollama.com/search
Esse comando vai inicializar o modelo DeepSeek diretamente na sua máquina. É uma maneira rápida e direta de utilizar o modelo, mas não necessariamente aproveita toda a potência da sua GPU.
Para verificar o quanto de CPU/GPU está sendo usado, execute o comando:
ollama ps
Você verá uma mensagem dessa forma:
⚠️Não esqueça de parar o modelo quando terminar de usar para que ele não fique carregado na memória do seu computador!
Para isso, use o comando abaixo:
ollama stop deepseek-r1:1.5b
3. Rodando DeepSeek em Docker
Uma opção robusta e flexível é usar o Docker para rodar o Ollama com o DeepSeek. Isso é especialmente útil para criar ambientes controlados e isolados, e também oferece mais controle sobre os recursos do sistema.
Passo 1: Instalar o Docker e o NVIDIA Container Toolkit
Instale o Docker no seu sistema
Para utilizar a GPU com Docker, você precisa do NVIDIA Container Toolkit. Siga as instruções de instalação aqui.
Passo 2: Rodar o Ollama em Docker
Após a instalação, você pode rodar o modelo DeepSeek em um container Docker com o seguinte comando:
docker run -d \ --gpus all \ -v ollama:/root/.ollama \ -p 11434:11434 \ --security-opt=no-new-privileges \ --cap-drop=ALL \ --cap-add=SYS_NICE \ --memory=12g \ --memory-swap=12g \ --cpus=6 \ --read-only \ --name ollama \ ollama/ollama
Explicando as Flags Importantes:
--gpus all
: Isso permite que o container utilize todas as GPUs disponíveis. (Necessário o NVIDIA Container Toolkit)-v ollama:/root/.ollama
: Mapeia o diretório de configuração do Ollama no container, garantindo que os dados do modelo sejam persistidos.-p 11434:11434
: Mapeia a porta do container para a sua máquina local, permitindo a comunicação com o modelo.--security-opt=no-new-privileges
: Garante que o container não ganhe privilégios adicionais, aumentando a segurança.--cap-drop=ALL
: Remove capacidades desnecessárias do container, reduzindo a superfície de ataque.--cap-add=SYS_NICE
: Adiciona uma capacidade específica que permite que o container ajuste a prioridade de processos, ajudando no uso eficiente da CPU.--memory=12g
: Limita o uso de memória do container a 12 GB (Ajuste conforme suas configurações de hardware).--cpus=6
: Limita o uso da CPU a 6 núcleos, ajustando o desempenho (Ajuste conforme suas configurações de hardware).--read-only
: Torna o sistema de arquivos do container somente leitura, melhorando a segurança.
Com o container rodando, podemos executar um modelo com o seguinte comando:
docker exec -it ollama ollama run deepseek-r1:1.5b
Agora é só conversar com o modelo.
⚠️Não esqueça de parar o container quando terminar de usar para que ele não fique carregado na memória do seu computador!
Para isso, use o comando abaixo:
docker stop ollama
Privacidade e Segurança:
O uso de Docker com essas flags oferece uma camada extra de segurança, pois o container fica isolado do restante do sistema operacional, minimizando o risco de vazamento de dados.
Além disso, o modo --read-only
e a configuração de privilégios restritos garantem que não haja modificações indesejadas ou acesso a dados fora do ambiente isolado, o que torna a execução mais segura em termos de privacidade.
Conclusão
Rodar o DeepSeek localmente é uma excelente maneira de garantir maior privacidade com o tradeoff de um baixo desempenho. Seja usando o LM Studio, Ollama ou até mesmo com Docker, você pode evitar que seus dados fiquem armazenados nos servidores da DeepSeek e contornar possíveis restrições geográficas.
Além disso, ao configurar sua GPU e utilizar o Docker, você garante um maior desempenho, tornando o processo mais eficiente e seguro.
Eu recomendo que você utilize o Docker com as flags de segurança apropriadas, pois ele oferece o melhor controle sobre privacidade e recursos de hardware.