Vertex AI Priority PayGo, 실서비스 27,000건으로 검증한 현실

#Vertex AI #Gemini #Google Cloud #Priority PayGo #LLM #인프라 #레이턴시 #벤치마크

Cloudturing Team • 발행: 2026. 02. 25 10:57 • 수정: 2026. 05. 22 13:54

들어가며

지난 글 Vertex AI Context Caching과 Priority PayGo, 실제로 얼마나 빨라질까?에서 400회의 통제된 벤치마크를 통해 Priority PayGo를 테스트했습니다. 당시 결론은 "비혼잡 시간대에서는 유의미한 차이가 없다"였고, "피크 시간대에 진가를 발휘할 것"이라는 기대를 남겨두었습니다.

그로부터 약 2주가 지났습니다. 실제 운영 중인 AI 챗봇에 Priority PayGo를 적용하고, 누적된 27,000건 이상의 실서비스 데이터 를 분석했습니다. 과연 피크 시간대에서 Priority는 제 값을 했을까요?

분석 환경

항목	내용
모델	`gemini-3-flash-preview`
플랫폼	Vertex AI (GKE에서 호출)
리전	`asia-northeast3` (서울)
데이터 소스	BigQuery
총 데이터	ON_DEMAND 약 23,000건 / ON_DEMAND_PRIORITY 약 4,000건
수집 기간	약 2주 (24시간 운영)
Thinking Level	LOW

Priority PayGo는 특정 고트래픽 챗봇에만 적용하여 A/B 형태로 운영했습니다. 동일 챗봇이 시기에 따라 Standard와 Priority 양쪽 모두의 데이터를 보유하고 있어 비교가 가능합니다.

1. 평균 응답 시간 비교

가장 먼저 시간대별 평균 응답 시간을 확인했습니다.

시간 (KST)	ON_DEMAND (ms)	PRIORITY (ms)	차이
00시	4,511	5,397	+886
01시	4,570	5,309	+739
02시	4,803	4,084	-719
03시	4,002	4,052	+50
04시	3,349	3,101	-248
05시	3,337	4,788	+1,451
06시	3,918	3,962	+44
07시	4,044	3,914	-130
08시	4,913	3,846	-1,067
09시	3,848	3,997	+149
10시	3,498	3,611	+113
11시	3,312	4,229	+917
12시	3,628	4,265	+637
13시	3,322	3,945	+623
14시	3,579	4,131	+552
15시	3,721	4,084	+363
16시	4,297	3,973	-324
17시	4,095	3,960	-135
18시	4,370	4,153	-217
19시	4,509	4,382	-127
20시	3,942	4,515	+573
21시	4,151	4,388	+237
22시	3,997	5,498	+1,501
23시	4,612	7,308	+2,696

24시간 전체를 놓고 보면, Priority가 더 빠른 시간대는 16 ~ 19시 정도뿐이었고, 그마저도 차이가 100 ~ 300ms 수준이었습니다. 반면 야간(22 ~ 01시)에는 Priority가 오히려 1,000 ~ 2,700ms 더 느린 결과를 보였습니다.

평균값은 이상치(outlier)에 민감합니다. 혹시 극단적으로 느린 소수의 요청이 평균을 왜곡하고 있는 건 아닐까요?

2. 중간값(Median)으로 이상치 제거

이상치의 영향을 제거하기 위해 중간값 기준으로 다시 비교했습니다.

시간 (KST)	ON_DEMAND median (ms)	PRIORITY median (ms)	차이
00시	3,410	3,785	+375
01시	3,470	3,502	+32
02시	3,544	3,276	-268
03시	3,313	3,707	+394
04시	3,121	3,022	-99
05시	2,841	3,505	+664
06시	3,264	3,404	+140
07시	3,228	2,861	-367
08시	3,190	3,227	+37
09시	2,989	3,244	+255
10시	2,985	3,063	+78
11시	3,012	3,113	+101
12시	3,082	3,293	+211
13시	3,075	3,257	+182
14시	3,213	3,187	-26
15시	3,266	3,174	-92
16시	3,468	3,130	-338
17시	3,311	3,272	-39
18시	3,377	3,335	-42
19시	3,295	3,465	+170
20시	3,346	3,420	+74
21시	3,338	3,435	+97
22시	3,281	3,528	+247
23시	3,587	3,698	+111

중간값 기준으로 보면 상황이 더 명확해집니다. 둘의 차이는 대부분 100~300ms 이내 로, 사실상 동일한 성능입니다. Priority가 의미 있게 빠른 시간대는 16시(-338ms) 정도가 유일합니다.

3. 10초 초과 요청 비율 — 안정성 비교

Priority PayGo의 주요 가치 제안은 "피크 시간대에도 안정적인 레이턴시"입니다. 그렇다면 극단적으로 느린 요청(10초 초과)의 발생 비율은 어떨까요?

시간 (KST)	ON_DEMAND 10초↑ 비율	PRIORITY 10초↑ 비율
00시	5.9%	9.3%
01시	4.0%	8.1%
02시	5.3%	5.6%
03시	4.3%	2.2%
04시	0.0%	0.0%
05시	2.3%	8.3%
06시	2.5%	0.0%
07시	5.4%	0.0%
08시	7.3%	1.8%
09시	3.5%	5.1%
10시	1.5%	3.1%
11시	0.7%	6.0%
12시	1.4%	6.7%
13시	0.9%	2.1%
14시	1.7%	3.3%
15시	2.0%	4.7%
16시	3.9%	2.9%
17시	3.9%	3.7%
18시	5.0%	4.1%
19시	4.9%	5.1%
20시	3.0%	5.8%
21시	2.7%	6.0%
22시	3.7%	12.1%
23시	5.1%	12.7%

총합:

	총 건수	10초 초과 건수	비율
ON_DEMAND	~23,000	775	3.4%
ON_DEMAND_PRIORITY	~4,000	242	5.9%

예상과 다른 결과입니다. Priority의 10초 초과 비율이 Standard의 약 1.7배 였습니다. 특히 야간 시간대(22~23시)에서는 10초 초과 비율이 12%를 넘기며, Standard 대비 3배 이상 높은 수치를 기록했습니다.

"안정적인 레이턴시"를 기대하고 80% 더 높은 요금을 지불했는데, 오히려 불안정한 결과를 보여준 셈입니다.

4. 비용 대비 효과

Vertex AI의 요금 체계상, Priority PayGo는 Standard PayGo 대비 1.8배 높은 토큰 단가가 적용됩니다.

27,000건의 데이터에서 확인한 결과를 정리하면:

지표	ON_DEMAND	ON_DEMAND_PRIORITY	판정
중간값 응답 시간	~3,200ms	~3,300ms	동등
10초 초과 비율	3.4%	5.9%	Standard 우위
토큰 단가	1x	1.8x	Standard 우위
피크 시간(16~18시) 중간값	~3,400ms	~3,200ms	소폭 Priority

피크 시간대에서 Priority가 200ms 정도 빠르긴 하지만, 1.8배의 비용 차이를 정당화하기에는 부족합니다.

왜 이런 결과가 나왔을까?

몇 가지 가설을 생각해 볼 수 있습니다.

1. Preview 모델의 한계

현재 사용 중인 gemini-3-flash-preview는 아직 GA(정식 출시)가 되지 않은 프리뷰 모델입니다. Priority 큐의 라우팅 최적화가 프리뷰 모델에서는 아직 완전하지 않을 수 있습니다.

2. 리전별 인프라 차이

서울 리전(asia-northeast3)은 글로벌 리전 대비 Priority 전용 인프라가 아직 충분히 갖춰지지 않았을 가능성이 있습니다. Priority 큐의 효과는 해당 리전의 인프라 규모와 밀접하게 연관될 수 있습니다.

3. 라우팅 오버헤드

이전 벤치마크 글에서도 언급했듯이, Priority 요청은 우선 처리를 위한 내부 라우팅 과정이 추가됩니다. 현재의 트래픽 수준에서는 이 오버헤드가 우선 처리의 이점을 상쇄하고 있을 수 있습니다.

결론

현시점의 판단

27,000건의 실서비스 데이터가 말해주는 것은 명확합니다. 현재 시점에서 Priority PayGo는 추가 비용 대비 성능 이점이 없습니다. 중간값 기준으로 응답 시간은 사실상 동일하고, 오히려 10초 초과 요청 비율은 더 높았습니다.

앞으로의 기대

이 결과가 Priority PayGo라는 기능 자체의 가치를 부정하는 것은 아닙니다. 아직 프리뷰 단계의 모델에서 테스트한 결과이며, 몇 가지 상황에서는 달라질 수 있습니다:

모델이 GA로 전환된 이후: 정식 출시와 함께 Priority 큐 최적화가 개선될 수 있습니다.
더 높은 트래픽 환경: 현재 수준보다 트래픽이 크게 증가하여 Google 인프라에 실질적인 경합이 발생하는 상황에서는 Priority의 효과가 나타날 수 있습니다.
글로벌 리전 사용 시: us-central1 등 대규모 리전에서는 Priority 인프라가 더 잘 갖춰져 있을 가능성이 있습니다.

GA 출시 이후, 동일한 방법으로 다시 한번 검증해 볼 계획입니다. 그때는 더 나은 결과가 나오길 기대합니다.

참고: 이 글은 2025년 2월 25일에 작성되었으며, gemini-3-flash-preview 모델 기준 결과입니다. 모델 업데이트나 GA 출시 이후 결과가 달라질 수 있습니다.

코딩 없이, 문서(PDF, TXT)만 올리면 AI 챗봇 완성!

이제 챗봇은 개발이 아닌 '생성'의 시대입니다.
클라우드튜링의 생성형 AI 솔루션으로 당신의 비즈니스에 날개를 달아드립니다.

👉 클라우드튜링 챗봇 도입 사례 확인하기

👇 클라우드튜링의 생성형 AI 기반 챗봇 솔루션으로 챗봇을 만들어보고 싶다면? 아래 배너를 클릭하세요! 👇

← 목록으로 돌아가기