학위논문이든 학술지든, 서론에서 제일 오래 걸리는 건 글이 아니라 지도다. "이 주제가 얼마나, 어떻게 연구됐는가"의 지도. 그 지도가 없으면 "이 연구가 왜 지금 필요한가"라는 주장이 근거를 잃는다. 유아교육 분야 논문을 준비하던 의뢰인이 양육스트레스 연구 20여 년의 흐름을 데이터로 정리해 달라고 요청한 것도 그래서였다.
무엇을 분석했나
KCI 데이터베이스에서 영유아·양육·스트레스 관련 검색식으로 375편을 수집한 뒤, 중복·비논문 형식·주제 불일치를 단계별로 제외해 최종 224편(2004~2025년)을 분석 코퍼스로 확정했다. 복합명사 사전 31개, 불용어 146개, 유사어 통합 사전을 적용해 9,006개 명사 토큰을 추출했다.
중요한 건 여기서 멈추지 않고 전처리 각 단계의 건수 변화를 흐름도로 문서화했다는 점이다. 375편이 어떤 기준으로 걸러져 224편이 됐는지가 그림 한 장에 남는다. 이건 나중에 논문 연구방법 챕터에 그대로 인용된다.
무엇이 나왔나
분석은 세 축으로 겹쳤다.
첫째, 키워드 지형. 단순빈도(TF)와 TF-IDF를 나란히 봤다. TF-IDF는 어디에나 나오는 흔한 어휘의 가중치를 낮춰, 빈도만으로는 안 보이는 특징 어휘를 드러낸다.
둘째, 연구 군집. 키워드 동시출현 네트워크에 Louvain 커뮤니티 탐지를 적용해 6개 연구 군집을 도출했다. 모(母) 중심 양육 변인, 아동 발달·기질, 부(父)·가족 상호작용 등으로 갈렸다. 20년 연구가 실제로 어떤 덩어리로 뭉쳐 있었는지가 보인다.
셋째, 시기별 변화. LDA 토픽모델링에서 최적 토픽 수를 k=6으로 정하고(근거는 아래), 4개 시기 구간별로 토픽 비중이 어떻게 변했는지 추적했다. 여기서 이 분석의 핵심 발견이 나왔다 — 특정 토픽이 전 시기에 걸쳐 지배적으로 유지되는 가운데, 2015년 이후 새로운 토픽이 부상하는 구조 변화. 의뢰인은 바로 이 지점을 '연구 갭'으로 삼아 논문의 필요성 논리를 세울 수 있었다.
심사위원이라면 여기를 본다
연구동향 분석은 특히 "어떻게 그 숫자가 나왔나"를 집요하게 검증받는다. 이 작업에서 준비한 세 가지다.
포인트 1 — 논문 선정 기준을 그림으로. "224편은 어떻게 골랐나"는 심사 단골 질문이다. 375→224 스크리닝 흐름도를 만들어 두면, 이 질문에 문장이 아니라 그림으로 답한다.
포인트 2 — 토픽 수 k의 근거. k=6은 감으로 정한 게 아니다. Coherence Score와 Perplexity를 k=5~10 범위로 교차 검토해 고른 값이고, 그 곡선을 그림으로 남겼다. "왜 6개인가"에 답이 준비돼 있다.
포인트 3 — 게재 가능한 산출물. 모든 그래프는 학술지 게재 해상도(200dpi)의 영문 라벨 버전으로 제작했다. 분석과 논문 사이의 '변환 비용'을 없앤다.
마치며
연구동향 분석의 값은 키워드 나열이 아니라, "이 분야에 아직 비어 있는 자리"를 수치로 특정하는 데 있다. 서론이 막히는 건 문장력이 부족해서가 아니라 지도가 없어서인 경우가 많다.
비슷한 연구동향·선행연구 분석이 필요하다면 텍스트마이닝 분석 페이지에서 진행 방식을 확인할 수 있다. 투고 전 자가 점검용 「심사위원이 보는 7가지 체크리스트」는 뉴스레터 「강의실의 AI」 구독 시 받아볼 수 있다.