설문으로 청년에게 "무기력하냐"고 물으면 솔직한 답이 나올까. 이 질문에서 출발한 분석이었다. 설문·면접 대신, 청년들이 익명으로 자발적으로 쏟아낸 말 — 유튜브 댓글로 학습된 무기력(learned helplessness)을 측정하는 작업이었다.
무엇을 분석했나
'지방 취업', '수도권 이직', '지방소멸', '청년 무기력' 등 4개 카테고리 12개 검색어로 2021~2025년 5개년의 유튜브 영상 1,757건과 댓글 95,134건을 수집했다. 광고·도배·중복을 4단계로 걸러내고, 약 60개의 복합명사 사전(지방소멸·헬조선·번아웃 등)과 약 500개 불용어 사전을 적용해 최종 분석 코퍼스를 만들었다.
분석은 세 갈래로 설계했다. ① LDA 토픽모델링으로 구직 경험의 의미 구조를 유형화하고, ② Seligman의 학습된 무기력 3요소(인지·동기·정서 결손)에 한국적 맥락 범주를 더한 4개 범주를 13개 앵커 어휘로 조작화해 매칭하고, ③ 동시출현 네트워크로 인식의 의미 지형도를 그렸다. 하나의 데이터에 세 방법을 겹쳐 삼각검증하는 구조다.
무엇이 나왔나
첫째, 청년의 의미망은 '서울 ↔ 지방' 양극에 갇혀 있었다. LDA 최대 토픽은 '지방·수도권 일자리 격차'(37.3%)였고, 네트워크 고유벡터 중심성 1·2위도 '서울'(0.477)과 '지방'(0.458)이었다. 연봉도, 결혼도, 아파트도 전부 이 두 극점의 좌표계 안에서만 이야기되고 있었다.
둘째, 무기력은 머리가 아니라 감정으로 먼저 표출됐다. 무기력 어휘 매칭 결과 정서적 결손(힘들·우울·무기력·번아웃)이 6.91%로, 인지적 결손(어차피·결국·해봤자, 2.21%)과 동기적 결손(그만두·도망·귀찮, 1.00%)을 압도했다.
셋째, 5년 사이 귀인이 '나'에서 '구조'로 이동하고 있었다. 정서 어휘는 코로나기 8.79%에서 취업난 심화기 5.75%로 줄어든 반면, 구조 비판 어휘(지방소멸·헬조선·흙수저)는 0.20%에서 0.41%로 약 2배 늘었다. 그런데 "어차피 안 된다"는 인지적 결손은 같은 기간 2.09~2.28%로 거의 변하지 않았다. 원인을 사회로 돌릴 수 있게 됐지만, 그 사회가 바뀔 수 있다는 믿음까지는 회복하지 못한 상태 — 이것이 이 분석의 가장 흥미로운 발견이었다.
심사위원이라면 여기를 본다
같은 데이터, 같은 기법으로 분석해도 심사를 통과하는 논문과 거절되는 논문이 갈리는 지점이 있다. 이 작업에서 신경 쓴 세 가지다.
포인트 1 — 어휘사전의 '포괄성'보다 '개념 타당성'. 무기력 어휘를 수백 개로 확장하면 검출량은 늘지만, 심사위원은 "이 단어가 왜 무기력인가"부터 묻는다. 그래서 범주당 3~4개의 앵커 어휘만 쓰되, 선정 기준 3가지(개념의 직접 표상, 오용 가능성 낮음, 이론과 1:1 대응)를 본문에 명시했다. 적게 잡되 방어 가능하게.
포인트 2 — 토픽 수와 임계값은 '결정의 근거'를 남긴다. K는 Coherence Score 곡선으로, 네트워크 엣지는 최소 공출현 임계값으로 — 모든 파라미터에 "왜 이 값인가"의 답을 준비했다. 심사위원이 가장 먼저 던지는 질문이기 때문이다.
포인트 3 — 한계를 선제적으로 쓴다. 유튜브 댓글의 자기선택 편향, 규칙 기반 형태소 분석의 정밀도 손실, 응원성 댓글로 인한 긍정 편향(긍정 17.6% > 부정 10.2%)까지 보고서에 먼저 적었다. 한계를 연구자가 쓰지 않으면, 심사위원이 거절 사유로 대신 쓴다.
마치며
텍스트마이닝의 가치는 키워드를 뽑는 데 있지 않다. 설문이 못 잡는 자발적 발화에서 이론(이번엔 학습된 무기력)을 조작화해 측정하고, 그 결과를 심사가 통과되는 언어로 서술하는 데 있다.
비슷한 분석(댓글·리뷰·인터뷰 텍스트로 논문 쓰기)을 준비 중이라면, 텍스트마이닝 분석 페이지에서 진행 방식을 확인할 수 있다. 투고 전 자가 점검용 「심사위원이 보는 7가지 체크리스트」 PDF도 함께 제공한다.