가이드 — MLOps 거버넌스 리츄얼 (BLK-MLOPS-01·02)¤
📖 약 9 분 읽기
ℹ️ 페이지 정보 (워크스페이스 메타)
Phase 0 콘텐츠 갭 9 종 중 9 번째 (마지막) 신설. 사업계획서 §9 MLOps loop 작성에 필요한 거버넌스 리츄얼 + 모니터링 + 드리프트 탐지 + 자동 재학습 트리거 + 챔피언·챌린저 SOP + 감사 generator. 운영 가이드 군 20 번째. Phase 0 완료 — 9 종 가이드 전 신설 완료. 4.26 자산 군 포맷 통일.
플레이스홀더 범례 —
[고객사]·[공정]·[수치]·[%]·[기간]·[임계]·[변수]표준. (확인 필요) — 리뷰 리츄얼 주기·재학습 임계·롤백 SOP 는 도메인·[고객사]운영 정책 후 확정.본 가이드의 직접 근거 —
track/track2-index.md§5.5 (3 층 모니터링·PSI·KS·드리프트 0.1·0.25 임계) · §6.1·6.2 (재학습 트리거·5 가지 개선 패턴) · §6.3 (챔피언·챌린저 승급) · §6.5 (리뷰 리츄얼);track/track2-top5.mdBLK-T2-5.5·6.1; 시나리오 SCN-MLO-01·02·03 (MLOps 3 시나리오 — 모델 등록·드리프트·HITL);guide/kpi-measurement.md§1.3·1.4 (모델·거버넌스 KPI 군);guide/model-training.md(BLK-MODEL-01) §3.5·3.7 (챔피언·챌린저·모델 리스크) → 본 가이드 §3 입력;guide/data-spec.md(BLK-DATA-01) §3.4·3.6 (전처리·분할) → 본 가이드 §3.2 드리프트 입력;guide/deployment-plan.md(BLK-TRAIN-01·02) §3.3 (HITL 피드백) → 본 가이드 §3.3 트리거 입력; 6 패키지 §8 MLOps 본문 추출.
1. 분류 — MLOps loop 5 범주¤
본 가이드는 사업계획서 §9 (MLOps loop) 의 정보를 5 범주로 분류한다. 5 범주 = 모니터링·드리프트·재학습·챔피언챌린저·거버넌스리츄얼.
1.1 모니터링 (Monitoring)¤
3 층 모니터링 — 추론 (지연·신뢰도)·모델 성능 (정확도·F1·MAPE)·도메인 KPI (불량률·OEE). track2 §5.5 답습.
1.2 드리프트 탐지 (Drift Detection)¤
PSI·KS·Jensen-Shannon Distance. 임계 0.1 (안정)·0.25 (재학습 검토)·0.5 (즉시 재학습). track2 §5.5 답습.
1.3 자동 재학습 (Auto Retraining)¤
드리프트 임계 초과 + HITL 피드백 누적 + 도메인 KPI 저하 → 자동 트리거. SCN-MLO-01·02 답습.
1.4 챔피언·챌린저 (Champion-Challenger)¤
신규 모델 챌린저 등록 → A/B 테스트·shadow 추론 → 승급 결정. track2 §6.3 답습.
1.5 거버넌스 리츄얼 (Governance Ritual)¤
월·분기·연간 리뷰 + 감사 로그 + 모델 카드 + 데이터 리니지. guide/kpi-measurement.md §1.4 답습.
2. 입력 스키마 매트릭스 (3 Tier · 17 필드)¤
guide/model-training.md §3.5 챔피언·챌린저 + §3.7 리스크 + guide/data-spec.md §3.6 분할 + guide/deployment-plan.md §3.3 HITL 피드백 1 차 수신.
| Tier | 범주 | 필드 | 형식 | 사용 |
|---|---|---|---|---|
| 1 | 모니터링 | 추적 지표 (3 층 각) | multi-text | §3.1 |
| 1 | 드리프트 | 드리프트 임계 (PSI·KS) | numbers | §3.2 |
| 1 | 재학습 | 자동 트리거 조건 | multi-text | §3.3 |
| 1 | 챔피언챌린저 | 승급 임계 ([%] 향상) |
number | §3.4 |
| 1 | 리츄얼 | 월·분기 리뷰 주기 | text | §3.5 |
| 2 | 모니터링 | 알람 채널 (Slack·이메일·SMS) | multi-select | §3.1 |
| 2 | 모니터링 | 대시보드 도구 (Grafana·Evidently·자체) | text | §3.1 |
| 2 | 드리프트 | feature drift vs concept drift 구분 | bool | §3.2 보강 |
| 2 | 재학습 | 재학습 자원 한도 (GPU 시간·예산) | numbers | §3.3 |
| 2 | 재학습 | 롤백 SOP (이전 모델 자동 복구) | text | §3.3 |
| 2 | 챔피언챌린저 | shadow 추론 vs A/B 테스트 선택 | dropdown | §3.4 |
| 2 | 챔피언챌린저 | 승급 검증 [기간] | text | §3.4 |
| 2 | 리츄얼 | 감사 로그 보존 [기간] | number | §3.5 |
| 2 | 리츄얼 | 모델 카드 항목 | multi-text | §3.5 |
| 3 | 모니터링 | SLA (가용도·지연 P99) | numbers | §3.1 보강 |
| 3 | 재학습 | 재학습 우선순위 (모델 ID 별) | multi-text | §3.3 |
| 3 | 리츄얼 | 외부 감사 (KOSHA·CBAM·OEM) 주기 | text | §3.5 + 외부 검증 |
3. §9 본문 5 절 템플릿¤
3.1 §9.1 3 층 모니터링 (~ 300 자 + 표)¤
본 사업의 운영 모니터링은
track/track2-index.md§5.5 의 3 층 모니터링을 답습한다. 추론 층 (실시간 지연·신뢰도) · 모델 층 (정확도·F1·MAPE 일·주 단위) · 도메인 KPI 층 (불량률·OEE 일·월 단위).
| 층 | 지표 | 주기 | 임계 | 알람 |
|---|---|---|---|---|
| 추론 | 지연 P95·P99·신뢰도 | 실시간 | P95 ≤ [지연] ms / 신뢰도 ≥ [임계] |
Slack 즉시 |
| 모델 성능 | 정확도·F1·MAPE | 일·주 | [성능임계] |
이메일 일 |
| 도메인 KPI | [1차KPI]·[2차KPI] |
일·월 | [도메인임계] |
월 리뷰 |
3.2 §9.2 드리프트 탐지 (~ 300 자 + ASCII 도식)¤
데이터·모델 드리프트는 PSI (Population Stability Index) · KS (Kolmogorov-Smirnov) · Jensen-Shannon Distance 3 지표로 모니터링한다. 임계 — PSI < 0.1 안정 / 0.1~0.25 주의 / ≥ 0.25 재학습 검토 / ≥ 0.5 즉시 재학습. Feature drift (X 분포 변화) vs Concept drift (X→y 관계 변화) 를 구분 추적한다.
[X·y 분포 모니터링]
│
├──→ PSI < 0.1: 안정 (정상 운영)
├──→ PSI 0.1~0.25: 주의 (알람 + 검토)
├──→ PSI 0.25~0.5: 재학습 검토 (월 리뷰 안건)
└──→ PSI ≥ 0.5: 즉시 재학습 트리거 (§9.3)
3.3 §9.3 자동 재학습 트리거 (~ 300 자 + 표)¤
재학습은 3 조건 OR 로 트리거된다 — (1) 드리프트 PSI ≥ 0.5 (즉시) 또는 ≥ 0.25 (월 리뷰 결정) (2) HITL 피드백 누적 ≥
[임계]샘플 (3) 도메인 KPI[KPI]≥[임계][%]저하. SCN-MLO-01·02 답습.
| 트리거 | 임계 | 자동 / 수동 | 자원 |
|---|---|---|---|
| 드리프트 (PSI) | ≥ 0.5 즉시 / ≥ 0.25 월 | 자동 (즉시) / 수동 (월) | GPU [수치] 시간 |
| HITL 피드백 누적 | ≥ [임계] 샘플 |
자동 | GPU [수치] 시간 |
| 도메인 KPI 저하 | ≥ [임계] [%] |
수동 (분기 리뷰) | 분기 예산 |
3.4 §9.4 챔피언·챌린저 SOP (~ 300 자 + ASCII 도식)¤
신규 모델 (재학습 결과·신규 알고리즘) 은 챌린저로 등록 → shadow 추론 또는 A/B 테스트 → 승급 임계 충족 시 챔피언 승급. track2 §6.3 답습.
[챌린저 모델 등록 (MLflow)]
│
▼
[shadow 추론 (운영 트래픽 복사) OR A/B (`[%]` 트래픽)]
│ `[기간]` 검증 (`[검증기간]`)
▼
[승급 평가]
├── 1 차 KPI ≥ 챔피언 + `[%]` 향상 → 챔피언 승급
├── 동등·소폭 향상 → 운영 후보 등록
└── 미달 → 챌린저 폐기 또는 재학습
▼
[챔피언 승급 시 이전 챔피언 → 롤백 후보 (`[보존기간]` 보존)]
3.5 §9.5 거버넌스 리츄얼 + 감사 (~ 300 자 + 표)¤
guide/kpi-measurement.md§1.4 거버넌스 KPI 군 답습. 월·분기·연간 리뷰 + 외부 감사 (KOSHA·CBAM·OEM) 결합.
| 리츄얼 | 주기 | 참여 (RACI) | 산출물 |
|---|---|---|---|
| 월 모델 리뷰 | 매월 | R&D + MLOps + 검사관 | 모델 카드 갱신·드리프트 보고 |
| 분기 포트폴리오 리뷰 | 분기 | R&D + 경영 + 도메인 | 챔피언·챌린저 승급 결정·예산 |
| 연간 감사 | 연 | 외부 감사 + 전문기관 | 데이터 리니지·모델 감사 보고 |
| HITL 피드백 리뷰 | 주 | 검사관 + 데이터팀 | 피드백 누적·재학습 트리거 |
| 외부 감사 (KOSHA·CBAM·OEM) | 연·외부 일정 | 외부 + 사내 | 인증 갱신·적합도 보고 |
4. 6 도메인 적용 예시¤
| 도메인 | 핵심 트리거 | 챔피언·챌린저 빈도 | 외부 감사 | 리츄얼 강도 |
|---|---|---|---|---|
| 철강 대기업 | 드리프트 + KPI 저하 | 분기 | CBAM + OEM | 강 (월·분기·연·외부) |
| 중견 냉연 | HITL 피드백 + 드리프트 | 분기 | OEM 일부 | 중 |
| 특수강관 | HITL 피드백 (UT 검사관) | 분기 | OEM (자동차) | 중 |
| 고무 양산 | HITL 피드백 + 드리프트 | 분기 | OEM (IATF) | 중 |
| 정밀가공 중소 | 드리프트 (SaaS 자동) | 반기 | — | 약 |
| 유틸·ESG | KPI 저하 + 외부 보고 의무 | 분기 | KOSHA·CBAM·CEMS | 강 (외부 검증 중심) |
5. 사업계획서 §9 인용·작성 강도 3 단계¤
- 강 (다년): §9.1~9.5 5 절 + ASCII 도식 2 종 (드리프트·챔피언챌린저) + 표 3 종 + 외부 감사 결합. 패키지 1·6
- 중 (단년): §9.1·9.2·9.3·9.5 4 절 + 표 2 종. 패키지 2·3·4·5
- 약 (PoC): §9.1·9.3 2 절 + 표 1 종. 패키지 5
6. 다른 자산과의 결합 패턴¤
| 자산 | 결합 방향 |
|---|---|
guide/model-training.md §3.5·3.7 |
챔피언·챌린저 + 모델 리스크 → 본 가이드 §3.4·3.3 |
guide/data-spec.md §3.4·3.6 |
전처리·분할 → 본 가이드 §3.2 드리프트 |
guide/deployment-plan.md §3.3 |
HITL 피드백 → 본 가이드 §3.3 트리거 |
track/track2-index.md §5.5·6.1·6.3·6.5 |
본 가이드 직접 답습 (3 층·재학습·챔피언·리츄얼) |
track/track2-top5.md BLK-T2-5.5·6.1 |
본 가이드 인용 |
scenario/detail-top5.md SCN-MLO-01·02·03 |
본 가이드 인용 |
guide/kpi-measurement.md §1.3·1.4 |
모델·거버넌스 KPI 군 |
guide/external-validation.md |
외부 감사 결합 |
7. (확인 필요) 항목¤
- 드리프트 임계 (PSI 0.1·0.25·0.5) 의 도메인 특수성 — 시계열 짧음·라벨 희소 시 보정
- 재학습 자원 한도 —
[고객사]인프라·예산 후 확정 - HITL 피드백 누적 임계 — phase 2 운영 검증 후 보정
- 챔피언 승급 임계
[%]향상 — KPI·도메인 특수성 후 확정 - 외부 감사 주기·기준 — 외부 인증 기관별 차이 (KOSHA·CBAM·OEM)
- 롤백 SOP 의 자동화 수준 — 운영 안정성 검증 후 단계 적용
8. 모델 한계·재사용 포인트¤
8.1 한계¤
- 5 범주 MECE 한계 — "재학습" 은 드리프트 + 챔피언챌린저 + HITL 3 범주에 걸쳐 있음. Agent 가 §3.3 = 트리거 / §3.4 = 승급 SOP 분리
- 6 도메인 외 패턴 부족 — 의료·금융 MLOps 는 (확인 필요) 마커
- 자동 트리거의 안정성 한계 — phase 1 운영 검증 후 단계적 자동화 권장. 초기에는 수동 승인 후 점진 자동화
- 외부 감사의 사업 외 영향 — KOSHA·CBAM·OEM 감사 주기는 본 사업 외부 일정. 본 가이드는 결합 인터페이스만 정의
8.2 재사용 포인트¤
- 5 범주 (Monitoring·Drift·Retraining·Champion-Challenger·Governance) MECE 분류 — 모든 ML 운영 시스템 표준 프레임
- 3 층 모니터링 + 3 임계 (PSI 0.1·0.25·0.5) 표준 — track2 답습. 다른 도메인 (의료·금융) 에 임계만 조정
- 챔피언·챌린저 + shadow·A/B 결합 SOP — MLOps 표준 답습
- 5 리츄얼 (월·분기·연·HITL 주·외부 감사) — 운영 거버넌스 표준
- ASCII 도식 (드리프트 의사결정·챔피언 승급) — Tier 3 ASCII 모듈의 §9 deterministic 패턴
[출처: 본 가이드 = track2 §5.5·6.1·6.3·6.5 + BLK-T2-5.5·6.1 + SCN-MLO-01·02·03 + 가이드_KPI_측정 §1.3·1.4 + 가이드_모델_선정_학습_기법 §3.5·3.7 + 가이드_데이터_명세_변수_구조 §3.4·3.6 + 가이드_적용_배포_방안 §3.3 + 6 패키지 §8 의 종합. Phase 0 콘텐츠 갭 9 종 완료 — 9 섹션 (현황·문제·개선·수행·AI 적용·데이터·모델·적용배포·MLOps) 모두 generator 보유.]
📌 이 페이지 정보 (개발자용)
- 원본 파일:
가이드_MLOps_거버넌스_리츄얼.md - 자산 군: 📋 운영 가이드
- slug 경로:
guide/mlops-ritual.md - 워크스페이스 정책: 원본 .md 수정 0 — hooks 로만 시각 변환
- 자산 자족성 정상화: Phase E7 완료 (잔여 외부 갭 4)