콘텐츠로 이동

가이드 — MLOps 거버넌스 리츄얼 (BLK-MLOPS-01·02)¤

📖 약 9 분 읽기

ℹ️ 페이지 정보 (워크스페이스 메타)

Phase E19 Phase 0 콘텐츠 갭 9 종 중 9 번째 (마지막) 신설. 사업계획서 §9 MLOps loop 작성에 필요한 거버넌스 리츄얼 + 모니터링 + 드리프트 탐지 + 자동 재학습 트리거 + 챔피언·챌린저 SOP + 감사 generator. 운영 가이드 군 20 번째. Phase 0 완료 — 9 종 가이드 전 신설 완료. 4.26 자산 군 포맷 통일.

플레이스홀더 범례 — [고객사]·[공정]·[수치]·[%]·[기간]·[임계]·[변수] 표준. (확인 필요) — 리뷰 리츄얼 주기·재학습 임계·롤백 SOP 는 도메인·[고객사] 운영 정책 후 확정.

본 가이드의 직접 근거 — track/track2-index.md §5.5 (3 층 모니터링·PSI·KS·드리프트 0.1·0.25 임계) · §6.1·6.2 (재학습 트리거·5 가지 개선 패턴) · §6.3 (챔피언·챌린저 승급) · §6.5 (리뷰 리츄얼); track/track2-top5.md BLK-T2-5.5·6.1; 시나리오 SCN-MLO-01·02·03 (MLOps 3 시나리오 — 모델 등록·드리프트·HITL); guide/kpi-measurement.md §1.3·1.4 (모델·거버넌스 KPI 군); guide/model-training.md (BLK-MODEL-01) §3.5·3.7 (챔피언·챌린저·모델 리스크) → 본 가이드 §3 입력; guide/data-spec.md (BLK-DATA-01) §3.4·3.6 (전처리·분할) → 본 가이드 §3.2 드리프트 입력; guide/deployment-plan.md (BLK-TRAIN-01·02) §3.3 (HITL 피드백) → 본 가이드 §3.3 트리거 입력; 6 패키지 §8 MLOps 본문 추출.


1. 분류 — MLOps loop 5 범주¤

본 가이드는 사업계획서 §9 (MLOps loop) 의 정보를 5 범주로 분류한다. 5 범주 = 모니터링·드리프트·재학습·챔피언챌린저·거버넌스리츄얼.

1.1 모니터링 (Monitoring)¤

3 층 모니터링 — 추론 (지연·신뢰도)·모델 성능 (정확도·F1·MAPE)·도메인 KPI (불량률·OEE). track2 §5.5 답습.

1.2 드리프트 탐지 (Drift Detection)¤

PSI·KS·Jensen-Shannon Distance. 임계 0.1 (안정)·0.25 (재학습 검토)·0.5 (즉시 재학습). track2 §5.5 답습.

1.3 자동 재학습 (Auto Retraining)¤

드리프트 임계 초과 + HITL 피드백 누적 + 도메인 KPI 저하 → 자동 트리거. SCN-MLO-01·02 답습.

1.4 챔피언·챌린저 (Champion-Challenger)¤

신규 모델 챌린저 등록 → A/B 테스트·shadow 추론 → 승급 결정. track2 §6.3 답습.

1.5 거버넌스 리츄얼 (Governance Ritual)¤

월·분기·연간 리뷰 + 감사 로그 + 모델 카드 + 데이터 리니지. guide/kpi-measurement.md §1.4 답습.


2. 입력 스키마 매트릭스 (3 Tier · 17 필드)¤

guide/model-training.md §3.5 챔피언·챌린저 + §3.7 리스크 + guide/data-spec.md §3.6 분할 + guide/deployment-plan.md §3.3 HITL 피드백 1 차 수신.

Tier 범주 필드 형식 사용
1 모니터링 추적 지표 (3 층 각) multi-text §3.1
1 드리프트 드리프트 임계 (PSI·KS) numbers §3.2
1 재학습 자동 트리거 조건 multi-text §3.3
1 챔피언챌린저 승급 임계 ([%] 향상) number §3.4
1 리츄얼 월·분기 리뷰 주기 text §3.5
2 모니터링 알람 채널 (Slack·이메일·SMS) multi-select §3.1
2 모니터링 대시보드 도구 (Grafana·Evidently·자체) text §3.1
2 드리프트 feature drift vs concept drift 구분 bool §3.2 보강
2 재학습 재학습 자원 한도 (GPU 시간·예산) numbers §3.3
2 재학습 롤백 SOP (이전 모델 자동 복구) text §3.3
2 챔피언챌린저 shadow 추론 vs A/B 테스트 선택 dropdown §3.4
2 챔피언챌린저 승급 검증 [기간] text §3.4
2 리츄얼 감사 로그 보존 [기간] number §3.5
2 리츄얼 모델 카드 항목 multi-text §3.5
3 모니터링 SLA (가용도·지연 P99) numbers §3.1 보강
3 재학습 재학습 우선순위 (모델 ID 별) multi-text §3.3
3 리츄얼 외부 감사 (KOSHA·CBAM·OEM) 주기 text §3.5 + 외부 검증

3. §9 본문 5 절 템플릿¤

3.1 §9.1 3 층 모니터링 (~ 300 자 + 표)¤

본 사업의 운영 모니터링은 track/track2-index.md §5.5 의 3 층 모니터링을 답습한다. 추론 층 (실시간 지연·신뢰도) · 모델 층 (정확도·F1·MAPE 일·주 단위) · 도메인 KPI 층 (불량률·OEE 일·월 단위).

지표 주기 임계 알람
추론 지연 P95·P99·신뢰도 실시간 P95 ≤ [지연] ms / 신뢰도 ≥ [임계] Slack 즉시
모델 성능 정확도·F1·MAPE 일·주 [성능임계] 이메일 일
도메인 KPI [1차KPI]·[2차KPI] 일·월 [도메인임계] 월 리뷰

3.2 §9.2 드리프트 탐지 (~ 300 자 + ASCII 도식)¤

데이터·모델 드리프트는 PSI (Population Stability Index) · KS (Kolmogorov-Smirnov) · Jensen-Shannon Distance 3 지표로 모니터링한다. 임계 — PSI < 0.1 안정 / 0.1~0.25 주의 / ≥ 0.25 재학습 검토 / ≥ 0.5 즉시 재학습. Feature drift (X 분포 변화) vs Concept drift (X→y 관계 변화) 를 구분 추적한다.

[X·y 분포 모니터링]
   ├──→ PSI < 0.1: 안정 (정상 운영)
   ├──→ PSI 0.1~0.25: 주의 (알람 + 검토)
   ├──→ PSI 0.25~0.5: 재학습 검토 (월 리뷰 안건)
   └──→ PSI ≥ 0.5: 즉시 재학습 트리거 (§9.3)

3.3 §9.3 자동 재학습 트리거 (~ 300 자 + 표)¤

재학습은 3 조건 OR 로 트리거된다 — (1) 드리프트 PSI ≥ 0.5 (즉시) 또는 ≥ 0.25 (월 리뷰 결정) (2) HITL 피드백 누적 ≥ [임계] 샘플 (3) 도메인 KPI [KPI][임계] [%] 저하. SCN-MLO-01·02 답습.

트리거 임계 자동 / 수동 자원
드리프트 (PSI) ≥ 0.5 즉시 / ≥ 0.25 월 자동 (즉시) / 수동 (월) GPU [수치] 시간
HITL 피드백 누적 [임계] 샘플 자동 GPU [수치] 시간
도메인 KPI 저하 [임계] [%] 수동 (분기 리뷰) 분기 예산

3.4 §9.4 챔피언·챌린저 SOP (~ 300 자 + ASCII 도식)¤

신규 모델 (재학습 결과·신규 알고리즘) 은 챌린저로 등록 → shadow 추론 또는 A/B 테스트 → 승급 임계 충족 시 챔피언 승급. track2 §6.3 답습.

[챌린저 모델 등록 (MLflow)]
[shadow 추론 (운영 트래픽 복사) OR A/B (`[%]` 트래픽)]
   │ `[기간]` 검증 (`[검증기간]`)
[승급 평가]
   ├── 1 차 KPI ≥ 챔피언 + `[%]` 향상 → 챔피언 승급
   ├── 동등·소폭 향상 → 운영 후보 등록
   └── 미달 → 챌린저 폐기 또는 재학습
[챔피언 승급 시 이전 챔피언 → 롤백 후보 (`[보존기간]` 보존)]

3.5 §9.5 거버넌스 리츄얼 + 감사 (~ 300 자 + 표)¤

guide/kpi-measurement.md §1.4 거버넌스 KPI 군 답습. 월·분기·연간 리뷰 + 외부 감사 (KOSHA·CBAM·OEM) 결합.

리츄얼 주기 참여 (RACI) 산출물
월 모델 리뷰 매월 R&D + MLOps + 검사관 모델 카드 갱신·드리프트 보고
분기 포트폴리오 리뷰 분기 R&D + 경영 + 도메인 챔피언·챌린저 승급 결정·예산
연간 감사 외부 감사 + 전문기관 데이터 리니지·모델 감사 보고
HITL 피드백 리뷰 검사관 + 데이터팀 피드백 누적·재학습 트리거
외부 감사 (KOSHA·CBAM·OEM) 연·외부 일정 외부 + 사내 인증 갱신·적합도 보고

4. 6 도메인 적용 예시¤

도메인 핵심 트리거 챔피언·챌린저 빈도 외부 감사 리츄얼 강도
철강 대기업 드리프트 + KPI 저하 분기 CBAM + OEM 강 (월·분기·연·외부)
중견 냉연 HITL 피드백 + 드리프트 분기 OEM 일부
특수강관 HITL 피드백 (UT 검사관) 분기 OEM (자동차)
고무 양산 HITL 피드백 + 드리프트 분기 OEM (IATF)
정밀가공 중소 드리프트 (SaaS 자동) 반기
유틸·ESG KPI 저하 + 외부 보고 의무 분기 KOSHA·CBAM·CEMS 강 (외부 검증 중심)

5. 사업계획서 §9 인용·작성 강도 3 단계¤

  • 강 (다년): §9.1~9.5 5 절 + ASCII 도식 2 종 (드리프트·챔피언챌린저) + 표 3 종 + 외부 감사 결합. 패키지 1·6
  • 중 (단년): §9.1·9.2·9.3·9.5 4 절 + 표 2 종. 패키지 2·3·4·5
  • 약 (PoC): §9.1·9.3 2 절 + 표 1 종. 패키지 5

6. 다른 자산과의 결합 패턴¤

자산 결합 방향
guide/model-training.md §3.5·3.7 챔피언·챌린저 + 모델 리스크 → 본 가이드 §3.4·3.3
guide/data-spec.md §3.4·3.6 전처리·분할 → 본 가이드 §3.2 드리프트
guide/deployment-plan.md §3.3 HITL 피드백 → 본 가이드 §3.3 트리거
track/track2-index.md §5.5·6.1·6.3·6.5 본 가이드 직접 답습 (3 층·재학습·챔피언·리츄얼)
track/track2-top5.md BLK-T2-5.5·6.1 본 가이드 인용
scenario/detail-top5.md SCN-MLO-01·02·03 본 가이드 인용
guide/kpi-measurement.md §1.3·1.4 모델·거버넌스 KPI 군
guide/external-validation.md 외부 감사 결합

7. (확인 필요) 항목¤

  • 드리프트 임계 (PSI 0.1·0.25·0.5) 의 도메인 특수성 — 시계열 짧음·라벨 희소 시 보정
  • 재학습 자원 한도 — [고객사] 인프라·예산 후 확정
  • HITL 피드백 누적 임계 — phase 2 운영 검증 후 보정
  • 챔피언 승급 임계 [%] 향상 — KPI·도메인 특수성 후 확정
  • 외부 감사 주기·기준 — 외부 인증 기관별 차이 (KOSHA·CBAM·OEM)
  • 롤백 SOP 의 자동화 수준 — 운영 안정성 검증 후 단계 적용

8. 모델 한계·재사용 포인트¤

8.1 한계¤

  • 5 범주 MECE 한계 — "재학습" 은 드리프트 + 챔피언챌린저 + HITL 3 범주에 걸쳐 있음. Agent 가 §3.3 = 트리거 / §3.4 = 승급 SOP 분리
  • 6 도메인 외 패턴 부족 — 의료·금융 MLOps 는 (확인 필요) 마커
  • 자동 트리거의 안정성 한계 — phase 1 운영 검증 후 단계적 자동화 권장. 초기에는 수동 승인 후 점진 자동화
  • 외부 감사의 사업 외 영향 — KOSHA·CBAM·OEM 감사 주기는 본 사업 외부 일정. 본 가이드는 결합 인터페이스만 정의

8.2 재사용 포인트¤

  • 5 범주 (Monitoring·Drift·Retraining·Champion-Challenger·Governance) MECE 분류 — 모든 ML 운영 시스템 표준 프레임
  • 3 층 모니터링 + 3 임계 (PSI 0.1·0.25·0.5) 표준 — track2 답습. 다른 도메인 (의료·금융) 에 임계만 조정
  • 챔피언·챌린저 + shadow·A/B 결합 SOP — MLOps 표준 답습
  • 5 리츄얼 (월·분기·연·HITL 주·외부 감사) — 운영 거버넌스 표준
  • ASCII 도식 (드리프트 의사결정·챔피언 승급) — Tier 3 ASCII 모듈의 §9 deterministic 패턴

[출처: 본 가이드 = track2 §5.5·6.1·6.3·6.5 + BLK-T2-5.5·6.1 + SCN-MLO-01·02·03 + 가이드_KPI_측정 §1.3·1.4 + 가이드_모델_선정_학습_기법 §3.5·3.7 + 가이드_데이터_명세_변수_구조 §3.4·3.6 + 가이드_적용_배포_방안 §3.3 + 6 패키지 §8 의 종합. Phase 0 콘텐츠 갭 9 종 완료 — 9 섹션 (현황·문제·개선·수행·AI 적용·데이터·모델·적용배포·MLOps) 모두 generator 보유.]

📌 이 페이지 정보 (개발자용)
  • 원본 파일: 가이드_MLOps_거버넌스_리츄얼.md
  • 자산 군: 📋 운영 가이드
  • slug 경로: guide/mlops-ritual.md
  • 워크스페이스 정책: 원본 .md 수정 0 — hooks 로만 시각 변환
  • 자산 자족성 정상화: Phase E7 완료 (잔여 외부 갭 4)