리눅스에서 vLLM 설치
- AI
- 2026. 1. 1. 00:11
1. python 설치
| sudo apt install python3-pip |
1번과 2번 옵션이 있다. 2번 옵션으로 가겠다.
왜냐하면 복잡한 의존성과 개발 환경 설정이 모델에따라 다른 경우가 많아 uv를 통한 가상화 환경이 유리하기 때문.
| 1번 옵션 # pip 설정 파일에 보호 기능을 비활성화하는 옵션을 추가 python3 -m pip config set global.break-system-packages true (또는 pip install vllm --break-system-packages) # vLLM 설치 pip install vllm 2번 옵션 # uv 설치 - 설치를 원하는 폴더로 이동해서 실행한다. (권장방법이라는데?) curl -LsSf https://astral.sh/uv/install.sh | sh #또는 pip으로 설치 가능 (난 이렇게 설치. 여러방법으로 설치가능 하도록 제공함) pip install uv |
2. uv를 설치했다면 아래 명령으로 새로운 Python environment 생성 가능.
| uv venv --python 3.12 --seed # python3.12버전으로 가상화폴더(.venv) 생성 |
3. 가상화 활성화
| source .venv/bin/activate # 가상화 활성화 |
가상환경을 활성화 하면 프롬프트 앞에 '(????)' 괄호로 가상환경이 활성화 됨을 알 수 있다.
which python 입력시 ./venv 안의 python 이 출력된다. which pip 도 마찬가지.
참고로 가상화 비활성화는 아래 명령어
| deactivate # 가상화 비활성화 |
4. 가상화 공간에서 vLLM 설치
| # vLLM과 필요한 의존성 패키지를 설치합니다. # uv가 압도적으로 빠른 의존성 해결 및 설치 속도를 보여줍니다. uv pip install vllm |
| # Load and run the model: vllm serve "google/gemma-3-1b-it" |
| # Call the server using curl: curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "google/gemma-3-1b-it", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }' |
- 끝 -
<번외 도커>
| # Deploy with docker on Linux: docker run --runtime nvidia --gpus all \ --name my_vllm_container \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HUGGING_FACE_HUB_TOKEN=<secret>" \ -p 8000:8000 \ --ipc=host \ vllm/vllm-openai:latest \ --model google/gemma-3-1b-it |
| # Load and run the model: docker exec -it my_vllm_container bash -c "vllm serve google/gemma-3-1b-it" |
| # Call the server using curl: curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "google/gemma-3-1b-it", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }' |
이 글을 공유하기





