심사위원은 텍스트마이닝 논문에서 이 일곱 가지를 먼저 본다

매년 수십 편의 텍스트마이닝 논문을 심사한다. 8개 학술지의 심사위원, 5개 등재학술지의 편집위원으로 일하면서다. 그 사이 발견한 공통점이 하나 있다. 게재되지 못하는 논문은 분석이 부족해서 떨어지는 게 아니다. 분석 과정의 결정들 — 데이터, 전처리, 파라미터 — 에 근거가 없거나, 결과와 해석이 뒤섞여 있어서 떨어진다.

아래 일곱 가지는 내가 텍스트마이닝 논문을 받았을 때 실제로 순서대로 확인하는 지점이다. 투고 전에 이 순서 그대로 자기 원고를 점검해 보면, 적어도 방법론 지적으로 거절될 가능성은 크게 줄어든다.

1. 데이터 대표성과 수집 투명성

심사위원이 가장 먼저 보는 것은 분석 기법이 아니라 데이터다. 무엇을, 어떤 검색어로, 어느 기간에, 몇 건을 수집했고, 어떤 기준으로 걸러냈는가. 이게 단계별 건수와 함께 제시되지 않으면 심사평 첫 줄이 정해진다 — "수집 검색어 선정 근거가 제시되지 않아 코퍼스가 연구 대상을 대표하는지 판단할 수 없음."

점검은 세 가지다. 검색어 목록과 선정 근거를 본문에 명시했는가. 수집→정제 단계별 건수 변화(원자료 N → 최종 N)를 표로 제시했는가. 이 데이터가 모집단을 대표하지 못하는 지점을 한계에서 인정했는가.

2. 전처리 결정의 재현 가능성

"불용어를 제거하였다"는 한 문장으로 전처리를 끝내는 원고가 많다. 심사 대상은 불용어 몇 개를 지웠는지가 아니라 어떤 기준으로 사전을 만들었는지다. 불용어·복합명사·유사어 사전의 규모와 대표 예시, 형태소 분석기와 버전까지 적혀 있어야 제3자가 같은 코퍼스를 재현할 수 있다. 재현이 불가능한 분석은 학술 논문이 아니라 개인 리포트다.

3. 토픽 수(K) 결정의 정당화

LDA에서 "토픽을 5개로 했다"고 쓰면 심사위원은 반드시 묻는다. 왜 5개인가. 이 질문에 답이 없는 논문이 방법론 지적 1순위다.

답은 한 장의 그림이다. K를 3에서 10까지 바꿔가며 Coherence Score를 구하고, 곡선의 최고점에서 K를 골랐다는 그림. 하이퍼파라미터(α, β)와 반복 횟수까지 명시하면 심사위원은 다음 페이지로 넘어간다. 없으면 거기서 멈춘다.

4. 결과와 해석의 분리

심사위원이 결과 챕터에서 가장 싫어하는 문장이 있다. "따라서 정책적 지원이 필요하다." 결과 챕터는 "~으로 나타났다"의 객관 서술로만 끝나야 한다. 필요하다, 해야 한다, 시사한다 — 전부 결론 챕터의 문장이다.

투고 전에 결과 챕터에서 "필요하다·해야 한다·시사한다"를 검색해 봐라. 0건이어야 한다. 이게 섞이면 분석이 아무리 좋아도 구조 지적이 나간다.

5. 이론 프레임과의 연결

"키워드를 뽑아 보니 이런 토픽이 나왔다"에서 끝나면 분석 리포트지 학술 논문이 아니다. 도출된 토픽이 어떤 이론적 개념과 대응하는지, 그 결과가 기존 이론을 지지하는지 확장하는지 반박하는지 — 이게 서술되어야 학술적 기여가 성립한다.

자기 점검 질문은 하나로 충분하다. "이 분석이 아니면 알 수 없었던 것"을 한 문장으로 말할 수 있는가.

6. 표·그림·본문 수치의 일치

가장 자주 잡히고, 가장 신뢰를 깎는 결함이다. 분석을 다시 돌린 후 표만 바꾸고 본문 문장의 수치를 안 바꾸면, 심사위원은 "표와 본문이 다르다"는 한 줄로 논문 전체의 정확성을 의심하기 시작한다. 그림에서 식별되지 않는 노드를 본문에서 묘사하는 것도 같은 계열이다.

본문에 등장하는 모든 수치를 표·그림과 1:1로 대조하는 것 — 지루하지만 이 작업이 심사 통과율을 실제로 바꾼다.

7. 한계의 선제적 서술

한계를 쓰지 않으면 심사위원이 대신 써 준다. 거절 사유로.

텍스트마이닝 논문의 정형화된 한계는 이미 정해져 있다. 데이터의 대표성(누가 말하고 누가 침묵하는가), 사전 기반 분석의 포괄성, 형태소 분석의 정밀도, 매체 특성에 따른 편향. 이걸 선제적으로 인정하고 "그럼에도 본 연구가 유효한 이유"까지 붙인 논문이 오히려 신뢰를 얻는다.

마치며 — 심사는 결과가 아니라 '결정의 근거'를 본다

일곱 가지를 관통하는 원리는 하나다. 심사위원은 당신의 결과를 심사하는 게 아니라, 그 결과에 이르는 결정들의 근거를 심사한다. 토픽 수도, 불용어 사전도, 임계값도 — "왜 이 값인가"에 답이 준비된 논문은 방법론에서 멈추지 않는다.

이 일곱 항목을 자가 점검 체크박스와 실제 심사 지적 문구까지 담아 PDF 한 부로 정리해 뒀다(「심사위원이 보는 7가지 체크리스트」, A4 5쪽). 뉴스레터 「강의실의 AI」를 구독하면 받아볼 수 있다.

체크리스트를 다 통과했는데도 "이 결과를 어떻게 해석해야 심사를 통과하는가"가 막막하다면, 텍스트마이닝 분석 페이지에서 심사위원 관점의 분석·해석 컨설팅 진행 방식을 확인할 수 있다.