가이드 — MLOps 거버넌스 리츄얼 (BLK-MLOPS-01·02)¤

📖 약 9 분 읽기

ℹ️ 페이지 정보 (워크스페이스 메타)

Phase E19 Phase 0 콘텐츠 갭 9 종 중 9 번째 (마지막) 신설. 사업계획서 §9 MLOps loop 작성에 필요한 거버넌스 리츄얼 + 모니터링 + 드리프트 탐지 + 자동 재학습 트리거 + 챔피언·챌린저 SOP + 감사 generator. 운영 가이드 군 20 번째. Phase 0 완료 — 9 종 가이드 전 신설 완료. 4.26 자산 군 포맷 통일.

플레이스홀더 범례 — [고객사]·[공정]·[수치]·[%]·[기간]·[임계]·[변수] 표준. (확인 필요) — 리뷰 리츄얼 주기·재학습 임계·롤백 SOP 는 도메인·[고객사] 운영 정책 후 확정.

본 가이드의 직접 근거 — track/track2-index.md §5.5 (3 층 모니터링·PSI·KS·드리프트 0.1·0.25 임계) · §6.1·6.2 (재학습 트리거·5 가지 개선 패턴) · §6.3 (챔피언·챌린저 승급) · §6.5 (리뷰 리츄얼); track/track2-top5.md BLK-T2-5.5·6.1; 시나리오 SCN-MLO-01·02·03 (MLOps 3 시나리오 — 모델 등록·드리프트·HITL); guide/kpi-measurement.md §1.3·1.4 (모델·거버넌스 KPI 군); guide/model-training.md (BLK-MODEL-01) §3.5·3.7 (챔피언·챌린저·모델 리스크) → 본 가이드 §3 입력; guide/data-spec.md (BLK-DATA-01) §3.4·3.6 (전처리·분할) → 본 가이드 §3.2 드리프트 입력; guide/deployment-plan.md (BLK-TRAIN-01·02) §3.3 (HITL 피드백) → 본 가이드 §3.3 트리거 입력; 6 패키지 §8 MLOps 본문 추출.

1. 분류 — MLOps loop 5 범주¤

본 가이드는 사업계획서 §9 (MLOps loop) 의 정보를 5 범주로 분류한다. 5 범주 = 모니터링·드리프트·재학습·챔피언챌린저·거버넌스리츄얼.

1.1 모니터링 (Monitoring)¤

3 층 모니터링 — 추론 (지연·신뢰도)·모델 성능 (정확도·F1·MAPE)·도메인 KPI (불량률·OEE). track2 §5.5 답습.

1.2 드리프트 탐지 (Drift Detection)¤

PSI·KS·Jensen-Shannon Distance. 임계 0.1 (안정)·0.25 (재학습 검토)·0.5 (즉시 재학습). track2 §5.5 답습.

1.3 자동 재학습 (Auto Retraining)¤

드리프트 임계 초과 + HITL 피드백 누적 + 도메인 KPI 저하 → 자동 트리거. SCN-MLO-01·02 답습.

1.4 챔피언·챌린저 (Champion-Challenger)¤

신규 모델 챌린저 등록 → A/B 테스트·shadow 추론 → 승급 결정. track2 §6.3 답습.

1.5 거버넌스 리츄얼 (Governance Ritual)¤

월·분기·연간 리뷰 + 감사 로그 + 모델 카드 + 데이터 리니지. guide/kpi-measurement.md §1.4 답습.

2. 입력 스키마 매트릭스 (3 Tier · 17 필드)¤

guide/model-training.md §3.5 챔피언·챌린저 + §3.7 리스크 + guide/data-spec.md §3.6 분할 + guide/deployment-plan.md §3.3 HITL 피드백 1 차 수신.

Tier	범주	필드	형식	사용
1	모니터링	추적 지표 (3 층 각)	multi-text	§3.1
1	드리프트	드리프트 임계 (PSI·KS)	numbers	§3.2
1	재학습	자동 트리거 조건	multi-text	§3.3
1	챔피언챌린저	승급 임계 (`[%]` 향상)	number	§3.4
1	리츄얼	월·분기 리뷰 주기	text	§3.5
2	모니터링	알람 채널 (Slack·이메일·SMS)	multi-select	§3.1
2	모니터링	대시보드 도구 (Grafana·Evidently·자체)	text	§3.1
2	드리프트	feature drift vs concept drift 구분	bool	§3.2 보강
2	재학습	재학습 자원 한도 (GPU 시간·예산)	numbers	§3.3
2	재학습	롤백 SOP (이전 모델 자동 복구)	text	§3.3
2	챔피언챌린저	shadow 추론 vs A/B 테스트 선택	dropdown	§3.4
2	챔피언챌린저	승급 검증 [기간]	text	§3.4
2	리츄얼	감사 로그 보존 [기간]	number	§3.5
2	리츄얼	모델 카드 항목	multi-text	§3.5
3	모니터링	SLA (가용도·지연 P99)	numbers	§3.1 보강
3	재학습	재학습 우선순위 (모델 ID 별)	multi-text	§3.3
3	리츄얼	외부 감사 (KOSHA·CBAM·OEM) 주기	text	§3.5 + 외부 검증

3. §9 본문 5 절 템플릿¤

3.1 §9.1 3 층 모니터링 (~ 300 자 + 표)¤

본 사업의 운영 모니터링은 track/track2-index.md §5.5 의 3 층 모니터링을 답습한다. 추론 층 (실시간 지연·신뢰도) · 모델 층 (정확도·F1·MAPE 일·주 단위) · 도메인 KPI 층 (불량률·OEE 일·월 단위).

층	지표	주기	임계	알람
추론	지연 P95·P99·신뢰도	실시간	P95 ≤ `[지연]` ms / 신뢰도 ≥ `[임계]`	Slack 즉시
모델 성능	정확도·F1·MAPE	일·주	`[성능임계]`	이메일 일
도메인 KPI	`[1차KPI]`·`[2차KPI]`	일·월	`[도메인임계]`	월 리뷰

3.2 §9.2 드리프트 탐지 (~ 300 자 + ASCII 도식)¤

데이터·모델 드리프트는 PSI (Population Stability Index) · KS (Kolmogorov-Smirnov) · Jensen-Shannon Distance 3 지표로 모니터링한다. 임계 — PSI < 0.1 안정 / 0.1~0.25 주의 / ≥ 0.25 재학습 검토 / ≥ 0.5 즉시 재학습. Feature drift (X 분포 변화) vs Concept drift (X→y 관계 변화) 를 구분 추적한다.

[X·y 분포 모니터링]
   │
   ├──→ PSI < 0.1: 안정 (정상 운영)
   ├──→ PSI 0.1~0.25: 주의 (알람 + 검토)
   ├──→ PSI 0.25~0.5: 재학습 검토 (월 리뷰 안건)
   └──→ PSI ≥ 0.5: 즉시 재학습 트리거 (§9.3)

3.3 §9.3 자동 재학습 트리거 (~ 300 자 + 표)¤

재학습은 3 조건 OR 로 트리거된다 — (1) 드리프트 PSI ≥ 0.5 (즉시) 또는 ≥ 0.25 (월 리뷰 결정) (2) HITL 피드백 누적 ≥ [임계] 샘플 (3) 도메인 KPI [KPI] ≥ [임계] [%] 저하. SCN-MLO-01·02 답습.

트리거	임계	자동 / 수동	자원
드리프트 (PSI)	≥ 0.5 즉시 / ≥ 0.25 월	자동 (즉시) / 수동 (월)	GPU `[수치]` 시간
HITL 피드백 누적	≥ `[임계]` 샘플	자동	GPU `[수치]` 시간
도메인 KPI 저하	≥ `[임계]` `[%]`	수동 (분기 리뷰)	분기 예산

3.4 §9.4 챔피언·챌린저 SOP (~ 300 자 + ASCII 도식)¤

신규 모델 (재학습 결과·신규 알고리즘) 은 챌린저로 등록 → shadow 추론 또는 A/B 테스트 → 승급 임계 충족 시 챔피언 승급. track2 §6.3 답습.

[챌린저 모델 등록 (MLflow)]
   │
   ▼
[shadow 추론 (운영 트래픽 복사) OR A/B (`[%]` 트래픽)]
   │ `[기간]` 검증 (`[검증기간]`)
   ▼
[승급 평가]
   ├── 1 차 KPI ≥ 챔피언 + `[%]` 향상 → 챔피언 승급
   ├── 동등·소폭 향상 → 운영 후보 등록
   └── 미달 → 챌린저 폐기 또는 재학습
   ▼
[챔피언 승급 시 이전 챔피언 → 롤백 후보 (`[보존기간]` 보존)]

3.5 §9.5 거버넌스 리츄얼 + 감사 (~ 300 자 + 표)¤

guide/kpi-measurement.md §1.4 거버넌스 KPI 군 답습. 월·분기·연간 리뷰 + 외부 감사 (KOSHA·CBAM·OEM) 결합.

리츄얼	주기	참여 (RACI)	산출물
월 모델 리뷰	매월	R&D + MLOps + 검사관	모델 카드 갱신·드리프트 보고
분기 포트폴리오 리뷰	분기	R&D + 경영 + 도메인	챔피언·챌린저 승급 결정·예산
연간 감사	연	외부 감사 + 전문기관	데이터 리니지·모델 감사 보고
HITL 피드백 리뷰	주	검사관 + 데이터팀	피드백 누적·재학습 트리거
외부 감사 (KOSHA·CBAM·OEM)	연·외부 일정	외부 + 사내	인증 갱신·적합도 보고

4. 6 도메인 적용 예시¤

도메인	핵심 트리거	챔피언·챌린저 빈도	외부 감사	리츄얼 강도
철강 대기업	드리프트 + KPI 저하	분기	CBAM + OEM	강 (월·분기·연·외부)
중견 냉연	HITL 피드백 + 드리프트	분기	OEM 일부	중
특수강관	HITL 피드백 (UT 검사관)	분기	OEM (자동차)	중
고무 양산	HITL 피드백 + 드리프트	분기	OEM (IATF)	중
정밀가공 중소	드리프트 (SaaS 자동)	반기	—	약
유틸·ESG	KPI 저하 + 외부 보고 의무	분기	KOSHA·CBAM·CEMS	강 (외부 검증 중심)

5. 사업계획서 §9 인용·작성 강도 3 단계¤

강 (다년): §9.1~9.5 5 절 + ASCII 도식 2 종 (드리프트·챔피언챌린저) + 표 3 종 + 외부 감사 결합. 패키지 1·6
중 (단년): §9.1·9.2·9.3·9.5 4 절 + 표 2 종. 패키지 2·3·4·5
약 (PoC): §9.1·9.3 2 절 + 표 1 종. 패키지 5

6. 다른 자산과의 결합 패턴¤

자산	결합 방향
`guide/model-training.md` §3.5·3.7	챔피언·챌린저 + 모델 리스크 → 본 가이드 §3.4·3.3
`guide/data-spec.md` §3.4·3.6	전처리·분할 → 본 가이드 §3.2 드리프트
`guide/deployment-plan.md` §3.3	HITL 피드백 → 본 가이드 §3.3 트리거
`track/track2-index.md` §5.5·6.1·6.3·6.5	본 가이드 직접 답습 (3 층·재학습·챔피언·리츄얼)
`track/track2-top5.md` BLK-T2-5.5·6.1	본 가이드 인용
`scenario/detail-top5.md` SCN-MLO-01·02·03	본 가이드 인용
`guide/kpi-measurement.md` §1.3·1.4	모델·거버넌스 KPI 군
`guide/external-validation.md`	외부 감사 결합

7. (확인 필요) 항목¤

드리프트 임계 (PSI 0.1·0.25·0.5) 의 도메인 특수성 — 시계열 짧음·라벨 희소 시 보정
재학습 자원 한도 — [고객사] 인프라·예산 후 확정
HITL 피드백 누적 임계 — phase 2 운영 검증 후 보정
챔피언 승급 임계 [%] 향상 — KPI·도메인 특수성 후 확정
외부 감사 주기·기준 — 외부 인증 기관별 차이 (KOSHA·CBAM·OEM)
롤백 SOP 의 자동화 수준 — 운영 안정성 검증 후 단계 적용

8. 모델 한계·재사용 포인트¤

8.1 한계¤

5 범주 MECE 한계 — "재학습" 은 드리프트 + 챔피언챌린저 + HITL 3 범주에 걸쳐 있음. Agent 가 §3.3 = 트리거 / §3.4 = 승급 SOP 분리
6 도메인 외 패턴 부족 — 의료·금융 MLOps 는 (확인 필요) 마커
자동 트리거의 안정성 한계 — phase 1 운영 검증 후 단계적 자동화 권장. 초기에는 수동 승인 후 점진 자동화
외부 감사의 사업 외 영향 — KOSHA·CBAM·OEM 감사 주기는 본 사업 외부 일정. 본 가이드는 결합 인터페이스만 정의

8.2 재사용 포인트¤

5 범주 (Monitoring·Drift·Retraining·Champion-Challenger·Governance) MECE 분류 — 모든 ML 운영 시스템 표준 프레임
3 층 모니터링 + 3 임계 (PSI 0.1·0.25·0.5) 표준 — track2 답습. 다른 도메인 (의료·금융) 에 임계만 조정
챔피언·챌린저 + shadow·A/B 결합 SOP — MLOps 표준 답습
5 리츄얼 (월·분기·연·HITL 주·외부 감사) — 운영 거버넌스 표준
ASCII 도식 (드리프트 의사결정·챔피언 승급) — Tier 3 ASCII 모듈의 §9 deterministic 패턴

[출처: 본 가이드 = track2 §5.5·6.1·6.3·6.5 + BLK-T2-5.5·6.1 + SCN-MLO-01·02·03 + 가이드_KPI_측정 §1.3·1.4 + 가이드_모델_선정_학습_기법 §3.5·3.7 + 가이드_데이터_명세_변수_구조 §3.4·3.6 + 가이드_적용_배포_방안 §3.3 + 6 패키지 §8 의 종합. Phase 0 콘텐츠 갭 9 종 완료 — 9 섹션 (현황·문제·개선·수행·AI 적용·데이터·모델·적용배포·MLOps) 모두 generator 보유.]

📌 이 페이지 정보 (개발자용)

원본 파일: 가이드_MLOps_거버넌스_리츄얼.md
자산 군: 📋 운영 가이드
slug 경로: guide/mlops-ritual.md
워크스페이스 정책: 원본 .md 수정 0 — hooks 로만 시각 변환
자산 자족성 정상화: Phase E7 완료 (잔여 외부 갭 4)