서술형 채점, 루브릭을 고정하고 분포를 강제하라

서술형 답안 한 더미, 리포트 한 무더기. 채점에 주말을 통째로 갈아 넣어 본 적 있으실 겁니다. 그렇다고 AI에 "이거 채점해줘"라고만 던지면 — 앞에 본 답안은 후하게, 뒤로 갈수록 박하게, 잣대가 흔들립니다. 오늘은 그 잣대를 한 번 고정해 두는 프롬프트입니다.

AI 채점이 못 미더운 진짜 이유

"틀리게 매겨서"가 아니라 "왜 그 점수인지 설명이 안 돼서"입니다. 그걸 해결하는 건 긴 프롬프트가 아니라, 채점 기준(루브릭)을 먼저 못 박고 + 전체를 한 번에 비교시키는 두 가지 장치입니다.

따라 하기

채점할 답안을 한 파일에 모읍니다. "답안 1 / 답안 2 / 답안 3 …"으로 구분만 해 두세요. (한 명씩 따로 넣으면 잣대가 매번 새로 잡혀 흔들립니다.)
아래 프롬프트의 [문항]과 [채점 기준]을 내 과제에 맞게 고칩니다.
프롬프트 + 답안 전체를 한 번에 붙여넣습니다.

너는 대학 과제 채점 조교다. 아래 [채점 기준]으로 학생 답안 전체를 한 번에 받아 상대 비교로 채점한다.

[채점 기준] — 4개 항목, 각 항목 상/중/하 1. 개념 정확성 — 상: 핵심 개념을 정확·완전하게 / 중: 대체로 맞으나 일부 부정확 / 하: 개념 오류이거나 누락 2. 근거·사례 — 상: 구체적 사례·자료로 뒷받침 / 중: 사례는 있으나 빈약 / 하: 사례 없이 선언적 3. 논리 구성 — 상: 주장–근거–결론이 분명 / 중: 흐름은 있으나 비약 / 하: 나열·산만 4. 표현 — 상: 문장이 명료 / 중: 다소 모호 / 하: 문장이 부정확

[절대 규칙] - 전체 답안 중 '상'은 20~30%, '중'은 50~60%, '하'는 20~30%가 되도록 분포를 맞춘다. 모두 같은 등급이면 잘못 채점한 것이다. - 각 항목 코멘트에는 그 답안의 실제 문장·내용을 근거로 든다. 일반론 금지. - 학생 이름은 쓰지 말고 '답안 1, 2 …'로 부른다.

결과 표가 나오면 이상한 등급만 직접 손봅니다. 0에서 시작하는 게 아니라, 이미 채워진 표를 검토하는 일이라 시간이 확 줄어듭니다.

잣대를 잡아주는 한 줄

[절대 규칙]의 첫 문장입니다 — "상은 20~30%, 중은 50~60%, 하는 20~30%로 분포를 맞춰라." 이 한 줄이 없으면 AI는 너그러워져 죄다 '상'을 줍니다. 분포를 못 박는 순간 변별이 생깁니다.

진짜 차이는 '점수'가 아니라 '설명 가능성'

같은 서술형 답안 3개를 두 방식으로 직접 돌려 비교해 봤습니다.

(a) "이 답안들 채점해줘" 라고만 했을 때 — 돌아온 건 "88점 / 75점 / 65점, 잘 썼음 / 보통 / 부족함"이 전부였습니다. 숫자는 그럴듯한데 왜 88이고 왜 75인지 설명이 없었습니다. 며칠 뒤 학생이 "왜 제가 75인가요?"라고 물으면 채점자조차 답을 못 합니다.

(b) 위 루브릭 프롬프트로 같은 답안을 넣었을 때 — 항목마다 그 답안의 실제 문장을 근거로 등급이 붙었습니다. 이의제기가 들어와도 재채점이 아니라 근거 제시로 끝납니다.

차이는 점수의 정확도가 아니라 "학생에게 보여줄 수 있느냐"였습니다. 채점 시간보다 그 뒤의 분쟁 시간을 줄여준다는 게 핵심입니다.

이것만 틀리면 사고

한 명씩 넣지 마세요. 전체를 한 번에 넣어야 같은 기준으로 줄을 세웁니다.
점수만 받지 말고 근거를 강제하세요. "왜 그 점수인지"가 안 남으면 나중에 더 위험합니다.
민감한 답안·개인정보는 익명화 후 입력. 학번·이름은 지우고, 자기개방적 내용이 담긴 답안은 외부 AI에 넣지 마세요.

나온 점수는 확정이 아니라 초안입니다. 최종 점수의 책임은 사람 — AI는 1차 채점자, 확정은 본인. 이 선만 지키면 됩니다.

이 글은 무료 뉴스레터 「강의실의 AI」 창간호를 옮긴 것입니다. 매주 강의실에서 직접 써본 AI 활용법 하나씩을 보냅니다. 구독하기