Vertex AI 신규모드 출시: Priority vs Flex PayGo, 개발자를 위한 상황별 선택 가이드

Cloudturing Team 발행: 2026. 02. 12 18:37

구글이 최근 Vertex AI의 Gemini 모델 사용자를 위해 Priority PayGoFlex PayGo라는 두 가지 신규 과금 모델을 출시했습니다.

기존의 Standard PayGo만으로는 부족했거나, 혹은 비용 최적화가 고민이었던 개발자분들을 위해 각 모드의 특성과 상황별 선택 가이드를 정리해 드립니다. 나중에 프로젝트 설계하실 때 참고해 보세요!


1. 한 눈에 비교하는 세 가지 옵션

모드 가격 (Input) 지연 시간 (Latency) 권장 용도
Standard 1.0x (기본) 낮음 (~3초) 일반적인 실시간 서비스
Priority 1.5x (할증) 낮음 (피크 시 안정) 미션 크리티컬, 유료 고객용 서비스
Flex 0.5x (반값) 높음 (평균 1분) 백엔드 가공, 순차적 파이프라인

2. Priority PayGo: 지연 시간을 방어하는 '보험'

비용을 50%나 더 내는 Priority PayGo는 단순히 속도를 빠르게 해주는 모드가 아닙니다. 구글의 시스템 부하가 높아져서 대기열이 생길 때, 내 요청을 가장 먼저 처리해주는 '우선권' 을 사는 것입니다.

  • 특징: 트래픽이 평범할 때는 Standard와 거의 동일한 속도를 보여줍니다.
  • 언제 쓸까?: "평소보다 더 빠르게"가 아니라, "사람이 몰리는 피크 시간에도 절대 응답이 늦어지면 안 되는" 중요한 기능에 적용하는 것을 추천합니다.
  • 적용: 헤더에 X-Vertex-AI-LLM-Shared-Request-Type: priority 추가.

3. Flex PayGo: 배치를 대체할 최강의 가성비 카드

이번 업데이트에서 개발자들이 가장 주목해야 할 부분은 Flex PayGo입니다. 비용이 무려 반값인데, 사용법은 일반 API 호출과 동일한 동기(Synchronous) 방식입니다.

왜 Flex PayGo인가?

기존에 비용 절감을 위해 Batch API(최대 24시간 대기)를 쓰려면, 요청을 던지고 성공 여부를 계속 폴링(Polling)해야 하는 복잡한 로직이 필요했습니다. 특히 여러 LLM 호출을 이어 붙이는 체이닝 작업에서는 지옥의 난이도를 자랑했죠.

Flex PayGo는 이 문제를 깔끔하게 해결합니다:

  • 코드의 단순함: 일반 await generateContent() 코드 그대로 사용 가능합니다.
  • 충분한 시간: 최대 30분까지 서버 대기를 지원합니다 (X-Server-Timeout: 1800).
  • 적당한 속도: 평균 1분 내외(14초~2분 30초 사이)면 응답이 옵니다. 배치 처리의 24시간에 비하면 비약적으로 빠릅니다.

4. 상황별 선택 가이드 (Cheatsheet)

이런 상황엔 [Priority]

  • 사용자가 유료로 결제한 미션 크리티컬한 기능을 제공할 때
  • SLA 준수가 중요한 엔터프라이즈 급 서비스를 운영할 때

이런 상황엔 [Flex]

  • 사용자가 즉시 응답을 기다리지 않는 백그라운드 데이터 가공 작업
  • 여러 LLM 호출을 순차적으로 수행해야 하는 파이프라인 (체이닝) 작업
  • 비용을 반으로 아끼면서도 배치 처리의 복잡함은 피하고 싶을 때

마치며

이번 Vertex AI 업데이트는 단순히 가격 옵션이 늘어난 것이 아니라, "상황에 따라 인프라 자원을 유연하게 선택할 수 있는 권한" 이 개발자에게 주어진 것입니다.

당장 적용하지 않더라도, 나중에 레이턴시나 비용 이슈가 생겼을 때 이 두 가지 옵션이 있다는 것을 기억해 두시면 큰 도움이 될 것입니다!