GTO 기초 — 솔버가 만든 새 언어
중급에서는 "상황별 최선의 액션"을 외웠다면, 고급에서는 그 액션이 왜 최선인지를 수학으로 풉니다. 내쉬 균형, CFR, Mixed strategy, Alpha, MDF — 솔버가 사용하는 언어를 한 페이지에 정리했어요. GTO 가 뭔지, 왜 익스플로잇과 다른지, 언제 어떤 걸 써야 하는지까지.
Counterfactual Regret Min.
60% 베팅 / 40% 체크
익스플로잇 못 당하는 선
bet / (bet + pot)
GTO 가 정확히 뭔가요?
GTO 는 Game Theory Optimal의 약자. 직역하면 "게임 이론적 최적해" 인데, 포커에서는 더 정확한 의미가 있어요 — 익스플로잇 불가능한 전략. 상대가 아무리 잘해도 내 EV 를 깎아먹지 못하는 균형 상태의 전략을 가리킵니다.
내쉬 균형 (Nash Equilibrium) — John Nash, 1950
두 플레이어가 동시에 전략을 골랐을 때, 어느 한 쪽도 자기 전략만 바꿔서는 EV 를 더 올릴 수 없는 상태. 이게 게임 이론의 균형 개념이에요.
포커는 제로섬 2인 게임 (heads-up)에서 내쉬 균형이 항상 존재해요 (Nash 1950 증명). 이 균형을 찾으면 그게 GTO 전략이 됩니다. 여러 명이 들어가는 멀티웨이는 균형이 유일하지 않아 더 복잡하지만, 솔버는 근사 균형을 찾아줘요.
GTO 의 4가지 핵심 속성
GTO vs Exploitative — 두 철학의 충돌
포커 전략은 크게 두 갈래로 갈려요. GTO 학파는 "수학적으로 흠 없는 전략을 쓰자", Exploit 학파는 "상대 약점을 노리자". 둘 다 정답이 있어요 — 상황에 따라.
🛡️ GTO Defensive
- 목표 — 어떤 상대든 EV ≥ 0 보장
- 가정 — 상대도 GTO 또는 모름
- 장점 — 약점 노출 X, 미지의 상대 OK
- 단점 — 약한 상대로부터도 똑같이 적게 땀
- 실행 — 솔버 결과를 외우거나 휴리스틱화
- 최적 환경 — 고스테이크 / 모르는 상대 / 온라인 익명
- 분산 — 낮음 (밸런스 잡혀있어 큰 폭 손실 X)
🎯 Exploitative Offensive
- 목표 — 특정 상대 EV 최대화
- 가정 — 상대 약점 충분히 파악
- 장점 — 약한 상대로부터 EV ↑↑↑
- 단점 — 자기 전략에 약점 노출 → 역공 가능
- 실행 — 노트 / HUD / 표본 분석
- 최적 환경 — 라이브 / 레크리에이셔널 / 약한 상대
- 분산 — 높음 (잘못 짚으면 큰 손실)
역사 — 왜 GTO 가 떠올랐나?
2010년 이전 포커는 거의 100% 익스플로잇 학파였어요. "상대를 읽어라"가 중심이었죠. 그런데 2014년 PioSolver 가 등장하면서 판이 바뀝니다. 이제는 수학적 정답을 컴퓨터로 구할 수 있게 된 거예요.
| 시기 | 주류 사조 | 대표 도구·인물 |
|---|---|---|
| ~2010 | Exploitative 시대 | Doyle Brunson, Phil Hellmuth — 직관·리딩 |
| 2010~2014 | 이론 정립기 | Will Tipton, Mathematics of Poker (Chen·Ankenman) |
| 2014~2018 | PioSolver 1세대 | Jared Tendler, 온라인 프로 진입 |
| 2018~2022 | Solver 대중화 | Simple Postflop, MonkerSolver, GTO+ 등장 |
| 2022~현재 | Cloud · 휴리스틱화 | GTO Wizard 부상, AI 학습 도구, 3-way solver |
솔버는 무엇을 푸는가 — CFR 알고리즘
PioSolver, GTO Wizard, MonkerSolver 모두 CFR (Counterfactual Regret Minimization) 이라는 알고리즘을 써요. 1990년대 후반에 발견된 게 포커 솔버의 핵심 엔진이 됐습니다.
CFR 의 직관 — Counterfactual Regret Minimization
아이디어는 단순해요. "그때 다른 액션을 했다면 EV 가 얼마나 올랐을까?" 라는 가상 후회 (counterfactual regret) 를 매 상황 매 핸드마다 계산. 후회가 큰 액션의 빈도를 ↑ 합니다.
이걸 수십억 번 반복하면 후회가 0 에 수렴 — 이게 바로 내쉬 균형. GTO 전략이 자동으로 떨어져요. 컴퓨터가 자기 자신과 끝없이 대결하면서 학습하는 셈입니다.
🔄 CFR 학습 루프 — 4단계 반복
한 핸드 플레이
EV 얼마였을지 계산
누적 저장
→ 1번으로 회귀
솔버가 받는 입력 vs 내놓는 출력
| 입력 (사용자가 설정) | 출력 (솔버 결과) |
|---|---|
| 스택 사이즈 (예: 100bb) | 각 액션의 빈도 % (예: 베팅 67%, 체크 33%) |
| 팟 사이즈 / 베팅 라인 가지 | 각 핸드별 EV 값 |
| 레인지 (Hero & Villain) | 레인지 별 응답 (콜·레이즈·폴드 빈도) |
| 보드 카드 (Flop/Turn/River) | 전체 노드의 EV 트리 |
| 레이크 / 사이즈 옵션 | 밸류 vs 블러프 비율 |
Mixed Strategy — 같은 상황 같은 핸드라도 다르게
초보자에게 가장 충격적인 GTO 개념. 같은 보드 + 같은 핸드 + 같은 상대라도 매번 같은 액션을 하면 GTO 가 아니에요. 솔버는 종종 "이 핸드는 60% 베팅, 40% 체크" 같은 혼합 전략을 추천합니다.
실전에서 어떻게 혼합?
인간이 60%/40% 를 매번 정확히 지킬 순 없어요. 그래서 실전에서는 다음 트릭을 씁니다.
Frequency 사고 — 단일 핸드가 아닌 레인지 분포
GTO 의 두 번째 패러다임 전환. "내 핸드만 보는 게 아니라 전체 레인지의 분포를 본다". 매 상황 솔버는 내 레인지 전체 가 어떻게 행동해야 하는지를 풀어요.
왜 Frequency 인가? — Range vs Hand
초보 사고: "나는 AK 를 가졌으니 베팅한다." → 핸드 중심.
GTO 사고: "BTN 의 c-bet 레인지는 무엇인가? 그 안에 AK 가 어떻게 쓰여야 하는가?" → 레인지 중심.
레인지 중심으로 사고하면 빈도 (frequency) 가 자연스럽게 나와요. 예: BTN 의 K72r 보드 c-bet 레인지가 65% 면, 그 65% 안에 어떤 밸류 (AK, KQ, 77, 22) 와 블러프 (76s, 65s) 가 들어가야 균형이 잡히는지 분석.
레인지 빈도 균형 — 베팅 vs 체크
BTN 의 K72r 플롭 c-bet 레인지가 어떻게 짜이는지 봅시다 (vs BB 콜).
| 핸드 카테고리 | 레인지 비중 | C-bet 빈도 | 역할 |
|---|---|---|---|
| Set / 2 pair (KK, 77, 22) | 3% | 100% bet | 너츠 밸류 — 항상 베팅 |
| Top Pair Strong (AK, KQ) | 8% | 85% bet | 밸류, 가끔 트랩 체크 |
| Top Pair Weak (KJs, KTs) | 5% | 50% bet | 혼합 — 보호 vs 팟 컨트롤 |
| Mid Pair (TT-88) | 6% | 40% bet | 주로 체크 콜 라인 |
| Backdoor Equity (76s, A♣x♣) | 15% | 35% bet | 블러프 후보 — 일부만 발사 |
| Air (Q♠T♠, J9o) | 25% | 15% bet | 대부분 체크 폴드 |
| 전체 평균 | 100% | 약 65% | 이게 BTN c-bet 빈도 |
Indifference — 상대를 무차별하게 만드는 베팅
GTO 전략의 가장 깊은 원리. 내 베팅 사이즈와 빈도는, 상대가 콜이든 폴드든 EV 가 같아지도록 설계됩니다. 상대 입장에서 "콜해도 폴드해도 똑같다" → 상대가 어느 쪽을 골라도 나는 손해 X. 이게 Indifference Principle 이에요.
Indifference 직관 — 상대를 무력화하는 것
상상해보세요. 내가 100% 밸류 (블러프 0%) 로만 베팅하면? 상대는 100% 폴드. 내 베팅 EV = 즉시 팟 차지. 하지만 똑똑한 상대는 항상 폴드 → 내 밸류 베팅이 풀 가치를 못 받음.
반대로 100% 블러프 (밸류 0%) 만 베팅? 상대는 100% 콜. 내가 무조건 짐.
GTO 는 밸류와 블러프를 정확한 비율로 섞어 상대의 콜 EV 와 폴드 EV 를 같게 만들어요. 그러면 상대는 어느 쪽을 골라도 나에게 손해를 못 끼침. 이게 무차별 (indifference) 의 의미.
Alpha (α) — 블러프 빈도의 수학
Indifference 를 풀면 정확한 블러프 빈도가 나와요. 이게 Alpha (α) 입니다. 밸류 베팅에 섞을 블러프 비율의 정확한 수치예요.
사이즈별 Alpha 표 (리버 기준)
| 베팅 사이즈 | 공식 | Alpha (블러프 %) | 밸류 : 블러프 | 의미 |
|---|---|---|---|---|
| 1/3 팟 (33%) | 0.33 / (0.33 + 1) = 0.25 | 25% | 3 : 1 | 작은 베팅 → 블러프 적음 |
| 1/2 팟 (50%) | 0.5 / (0.5 + 1) = 0.33 | 33% | 2 : 1 | 중간 사이즈 표준 |
| 2/3 팟 (66%) | 0.66 / (0.66 + 1) = 0.40 | 40% | 1.5 : 1 | 표준 c-bet 사이즈 |
| 3/4 팟 (75%) | 0.75 / (0.75 + 1) = 0.43 | 43% | 1.3 : 1 | 3-bet 팟 표준 |
| 풀 팟 (100%) | 1.0 / (1.0 + 1) = 0.50 | 50% | 1 : 1 | 밸류와 블러프 동등 |
| 2x 팟 (오버) | 2.0 / (2.0 + 1) = 0.67 | 67% | 1 : 2 | 오버베팅 → 블러프 ↑ |
리버에서 3/4 팟 베팅하려면 블러프 몇 핸드?
MDF — 최소 디펜스 빈도 (Minimum Defense Frequency)
Alpha 가 베터의 시각이라면 MDF 는 콜러의 시각이에요. 상대 베팅을 받았을 때 "최소 얼마나 폴드 안 하고 디펜드해야" 상대 블러프가 안 통하는지의 임계점.
사이즈별 MDF 표
| 상대 베팅 | MDF | 최대 폴드 (1−MDF) | 예시 — 100bb 팟 |
|---|---|---|---|
| 1/3 팟 | 75% | 25% | 33bb 베팅 → 75% 디펜드 |
| 1/2 팟 | 67% | 33% | 50bb 베팅 → 67% 디펜드 |
| 2/3 팟 | 60% | 40% | 66bb 베팅 → 60% 디펜드 |
| 3/4 팟 | 57% | 43% | 75bb 베팅 → 57% 디펜드 |
| 풀 팟 | 50% | 50% | 100bb 베팅 → 50% 디펜드 |
| 2x 팟 (오버) | 33% | 67% | 200bb 올인 → 33%만 디펜드 |
팟오즈 = 내가 콜할 핸드의 EV 양수 임계점 (주관적, 핸드 중심).
MDF = 내 전체 레인지 디펜드 비율 (객관적, 레인지 중심).
서로 다른 도구. MDF 는 익스플로잇 방어, 팟오즈는 핸드 EV 계산.
MDF 는 이론적 하한선이지만, 실전에서는 OOP 에서 약간 under-defend 가 더 좋아요. 왜? 상대가 IP 우위를 얻고 있어 후속 거리에서 추가 손실 발생. 솔버도 OOP 에서는 MDF 보다 조금 적게 디펜드합니다.
상대가 리버 풀팟 베팅. 얼마나 폴드?
솔버 결과를 사람이 외우는 법 — 휴리스틱 추출
솔버는 정확한 % 를 주지만, 인간은 매번 그걸 못 외워요. 그래서 프로들은 솔버 결과에서 일반화 가능한 패턴 (휴리스틱)을 뽑아냅니다. "이 보드에서는 이 사이즈로 이 빈도" 같은 식으로요.
핵심 휴리스틱 7가지
학습 우선순위 — 무엇부터 마스터?
| 우선순위 | 주제 | 이유 |
|---|---|---|
| 1순위 | SRP (Single Raised Pot) c-bet | 가장 자주 발생, 모든 스팟의 기본 |
| 2순위 | 3-bet 팟 c-bet 스킴 | 큰 팟 결정, 작은 실수도 ↑ EV 손실 |
| 3순위 | 턴 베럴링 결정 | 플롭보다 어려움, 가장 큰 EV 갭 |
| 4순위 | 리버 베팅 사이즈 + Alpha | 최종 결정, 정확한 수학 필요 |
| 5순위 | 특수 스팟 (체크레이즈, 도네이션, 스퀴즈 팟) | 드물지만 EV 큰 임팩트 |
솔버 도구 비교 — GTO Wizard · PioSolver · Simple Postflop
2025년 기준 가장 많이 쓰이는 3가지 솔버. 각자 강점이 달라서 용도에 맞춰 골라야 해요. 가격도 천차만별.
- ✅ 캐시 / MTT / SnG / HU 다 지원
- ✅ ICM 솔루션 (토너 강자)
- ✅ 2025 — 3-way 멀티웨이 솔빙
- ⚠️ 구독제 (한번 끊으면 사용 X)
- ⚠️ 커스텀 트리 한정 (Ultra 티어만)
- ✅ 완전 커스텀 트리 / 레인지 / 스택
- ✅ 1회 구매 — 장기적으로 저렴
- ✅ 가장 정밀한 솔루션
- ⚠️ 강력한 PC 필요 (32GB+ RAM)
- ⚠️ 학습 곡선 가파름
- ✅ 가격 대비 가성비 최강
- ✅ 작은 PC 에서도 OK
- ✅ 한국어 튜토리얼 일부 존재
- ⚠️ 솔빙 속도 PioSolver 의 50%
- ⚠️ 고급 기능 일부 빠짐
레벨별 추천
| 레벨 | 추천 도구 | 예산 · 시간 | 이유 |
|---|---|---|---|
| 입문 (~ 마이크로) | GTO Wizard Starter | $30/월 · 30분/일 | 설치·세팅 부담 없이 휴리스틱 학습 시작 |
| 중급 (스몰) | GTO Wizard Premium 또는 GTO+ | $60~80/월 또는 $75 1회 | 커스텀 분석 시작 — 본인 핸드 리뷰 |
| 고급 (미들+) | PioSolver + GTO Wizard Elite | $249 + $139/월 | 딥 분석 (Pio) + 빠른 조회 (Wizard) 병행 |
| 프로 (하이) | PioSolver Edge + MonkerSolver | $1099 + $249 | 멀티웨이·SRP·3-bet 팟 풀스펙트럼 분석 |
GTO 가 만능이 아닌 이유 — 실전의 5가지 한계
여기까지 읽으면 "GTO 가 답이구나" 싶을 거예요. 하지만 현실은 그렇지 않아요. 실전 포커에서 GTO 만 고집하면 EV 가 더 떨어지는 경우가 많습니다.
솔버 결과의 60% 정도만 따라할 수 있어요. 그러면 "반쪽짜리 GTO" — 다 깨집니다. 중간에 어설프게 균형 잡힌 척 하다가 약점만 노출.
상대가 큰 약점이 있는데 GTO 만 쓰면 그 약점을 못 노림. 예: 상대 F3B 80% 인데 GTO 의 3-bet 빈도 (10%) 만 유지 → 익스플로잇으로 25% 까지 ↑ 가능했을 EV 를 버림.
라이브에서는 상대의 표정·시간·말투 등 정보가 많아요. 이걸 무시하고 GTO 만 따라하면 "정보 가지고도 안 쓴다" 는 거대한 EV 손실.
솔버 대부분 heads-up (1대1) 만 정확히 풀어요. 멀티웨이는 균형이 유일하지 않아 근사해. 3+ 명 들어간 팟에서는 휴리스틱 + 익스플로잇이 더 정확한 경우 많아요.
토너먼트에서는 칩 EV 와 $ EV 가 달라요 (ICM). 일반 GTO 솔버 결과는 칩 EV 기준. ICM 보정 없는 GTO 는 토너 후반에 큰 실수를 낳음.
언제 GTO 쓰고, 언제 Exploit 할까?
실전의 결정 기준. 한 번 정리하면 매 핸드 자동으로 적용 가능해요.
🛡️ GTO 가 정답인 상황
- 모르는 상대 — 표본 50핸드 미만
- 온라인 익명 / 빠른 테이블 회전
- 고스테이크 정규 게임 — 상대도 GTO
- 토너먼트 버블 — ICM 보정된 GTO
- 본인이 약점이 노출됐을 때 — 균형 회복용
- HUD 신뢰 X 상황 — 정보 부족
- 결정 피곤할 때 — 디폴트로 GTO 가 안전
🎯 Exploit 가 정답인 상황
- 표본 200핸드+ 누적 — 신뢰 가능 통계
- 라이브 포커 — 표정·시간 정보 ↑
- 레크리에이셔널 / 마이크로 스테이크
- HUD 명확한 약점 노출 — F3B 75%+
- 상대가 패턴 노출 — 항상 c-bet, 항상 콜
- 토너 ICM 압박 상황 — 거품 노림
- 스택 뎁스 비대칭 — 본인이 칩 리더
🧭 실전 결정 플로우 — 5초 룰
실전 사고 흐름 — 매 거리(Street)마다 5단계
GTO 사고를 매 결정에 적용하는 표준 5단계. 처음엔 느리지만 1000핸드면 자동화됩니다.
🎴 1단계 — 레인지 정의
🎴 2단계 — 보드 분석
🎴 3단계 — 빈도 사고
🎴 4단계 — Alpha · MDF 체크
🎴 5단계 — Exploit 조정
고급자가 자주 하는 GTO 실수 7가지
GTO 입문 후 1~2년차에 거의 모두가 빠지는 함정. 이 패턴 알면 1년 정도 시간 단축됩니다.
상대가 명확히 약점 노출 (F3B 80%) 인데도 GTO 빈도 (10%) 만 고수. 익스플로잇 EV 25% 를 버림.GTO 는 상대 모를 때의 디폴트일 뿐.
핸드 → 액션 매핑을 통째로 암기. 새 상황 만나면 응용 X.휴리스틱 (보드 카테고리 + 핸드 카테고리) 으로 압축해서 외울 것.
본인 가정의 레인지가 잘못되면 솔버 결과도 잘못. 예: BB 디펜드 레인지를 60% 로 입력해야 하는데 40% 입력.입력 검증이 솔빙의 절반.
솔버가 60/40 이라고 매 핸드 정확히 그 비율을 지키려고 함. 인간은 못 함.50% 이하는 0%, 80% 이상은 100% 로 단순화 OK.
heads-up 솔버 결과를 3-way·4-way 에 그대로 적용. 멀티웨이는 균형 다른데 무시.멀티웨이는 더 타이트 + 더 단순화.
토너 후반에 일반 GTO 사용. ICM 때문에 일부 콜이 −EV 로 바뀌는데 그대로 콜.토너는 GTO Wizard ICM 모드 또는 ICMizer 별도 학습.
솔버 한 시간 했다고 만족. 실제 적용률은 30% 라 수익 그대로. 핸드 리뷰로 적용률 측정 — 솔버 결과와 본인 결정의 일치율 추적. 70% 넘기면 충분.
고급 GTO 용어 사전
이 강의에서 나온 용어 + 추가 자주 쓰이는 것들. 다음 강의 (M11 멀티스트릿 플래닝) 에서도 계속 쓰여요.
GTO 학습 로드맵 — 6개월 플랜
하루 30분 학습 기준 6개월이면 마이크로~스몰 스테이크에서 EV+ 가 됩니다. 순서가 중요해요 — 휴리스틱 → 솔버 검증 → 응용 순.
| 월차 | 주제 | 도구 | 목표 |
|---|---|---|---|
| 1개월 | 프리플랍 차트 마스터 | GTO Wizard 무료 | 오픈·3-bet·4-bet 차트 6포지션 |
| 2개월 | SRP 플롭 c-bet 휴리스틱 | GTO Wizard Starter | A-high · K-high · 미들 보드별 패턴 |
| 3개월 | 턴·리버 베럴링 + Alpha | GTO Wizard Premium | 사이즈별 블러프 빈도 자동 계산 |
| 4개월 | 3-bet 팟 + MDF | GTO Wizard + 핸드 리뷰 | SPR 4 이하 폴라라이즈 마스터 |
| 5개월 | 익스플로잇 조정 시작 | HUD + 노트 | GTO 베이스 + 5가지 익스플로잇 패턴 |
| 6개월 | 본인 핸드 리뷰 + 자동화 | 전체 통합 | 실시간 결정 5초 이내, EV+ 안정화 |
하루 3시간 했다 일주일 안 한다? EV+ 안 됨. 매일 30분이 일주일 3시간보다 100배 효과적이에요.habits > intensity. 솔버 트레이너 매일 한 세션, 본인 핸드 매일 한 핸드 리뷰 — 이게 표준 루틴.
학습 자료 추천 (2025)
📕 1강 완료! 다음은 멀티스트릿 플래닝
이론을 알았으니 이제 응용. 2강 에서는 4 거리 (프리플랍 → 플롭 → 턴 → 리버) 를 통합해서 한 핸드의 전체 EV 트리를 그리는 법을 배웁니다. 스택 뎁스, SPR, 베팅 라인 설계 — 진짜 GTO 의 응용.
고급 2강 바로가기 →