기본 콘텐츠로 건너뛰기

여론조사 뭐가 문제인지 최대한 쉽게 설명해 보기

여론조사 아무리 쉽게 설명해도 어렵다고들 합니다. 대학에서 여러해 사회조사통계 과목을 강의했지만, 학생들 절반밖에 이해 못하더군요. 그래서 딴지체로 좀 써 봅니다. 아무래도 제가 나이가 적은편은 아니니(물뚝심송 또래임) 형아 체 좀 쓴다고 책잡힐 것 같지도 않고. 아무래도 우리나라에서 사회교사는 학교에서만 수업해서는 안될 모양입니다.

요즘 여론조사때문에 말들이 많은데, 특정 후보가 유리하고 불리하고가 문제는 아니야. 어찌 하다보니 박근혜 후보에게 유리하다고 막 뭐라 그러는데, 그거 여론조사하는 사람이 일부러 하는건 아니니까 여론조작이라고 뭐라할수는 없어. 그들도 열악한 상황에서 나름 최선을 다한다고. 하지만 결과적으로 그렇게 되는 면은 있지. 그건 여론조사 기관이 나쁜게 아니라 그걸 교묘하게 이용해 먹는 언론들이 나쁜거야.


여론조사의 기본 개념

우선 여론조사의 기본 개념부터 익혀보자. 여론조사의 기본 원리는 간단해. 어떤 집단 구성원들의 생각을 물어보는데, 그 집단이 워낙 거대해서 그 집단을 대표하는 소수의 표본을 추출한뒤, 그 소수의 응답 결과를 통해 원래집단(모집단)의 생각을 추론하는거야. 쉽지? 자 다음 그림을 보자고.
 
선거때 모집단은 당연히 대한민국 성인남녀야. 대략 4000만명이라 치자. 이 4000만명한테 권재원과 이회창 누굴 지지하느냐고 물어볼수 있는 기관은 선관위밖에 없어. 선거가 바로 그거니까. 하지만 선거전에 누굴 찍고싶은지 미리 알고 싶다면? 4000만명 모두에게 물어볼 수 없으니 그 중 1500명을 뽑아서 물어보자는 거야.

자, 그렇다면 여기서 문제가 발생해. 1500명이 과연 4000만명을 얼마나 잘 대표할 수 있느냐는거야. 이때 바로 확률표집이란 말이 등장해. 비록 표본은 1500명에 불과하지만, 모집단에 속한 4000만명 중 표본으로 선정될 확률이 똑같이 1/4500만이었다면 이 1500명은 4000만명의 3/20만 축소판이라고 할 수 있다는거지. 물론 원래 집단을 3/20만으로 축소시키는 과정에서 오차가 발생할 수 있는데, 축소시킨 배율을 알고 있기 때문에 그 오차의 범위도 계산이 가능하고, 이걸 표집오차라고 해.

그렇다면 어떻게 해야 확률표집이 될까? 원칙적으로는 대한민국 성인남녀 명단을 1번부터 4000만번까지 쫙 나열한다음, 난수발생기로 1-4000만번 사이의 번호 1500개를 선정한 다음 거기에 해당되는 사람들을 "축하합니다 표본 되셨습니다" 하는거지. 이때 이 모집단의 명단, 목록을 "표집틀"이라고 해. 이 경우에는 "대한민국 성인남녀 전체 명단" 되겠어. 하지만 우리나라 국민을 1번부터 4000만번까지 줄세운 명단을 여론조사기관이 어떻게 보유해? 지들이 국정원이야, 아니면 민간사찰하는 가카야? 교육학자들은 이 점에서 복받았어. 연구대상이 학생들이니까. NEIS덕분에 대한민국 모든 초중고생들의 DB가 완벽하게 갖춰져 있거든. 하지만 전국민을 상대로... 쩝.

그래서 되도록 많은 사람의 명단, 가능하면 빠짐없이 사람들이 수록된 명단을 확보해서 그걸 표집틀로 사용하지. 그러니 실제로 여론조사는 다음 그림같이 되는거야. 이론적으로는 모집단을 대표하는 표본을 추출한 것이지만, 실제로는 표집틀에 나와있는 사람들 중에서 표본을 추출한 것이지. 그런데 이건 통계로 밥벌어 먹는 사람들의 숙명인데, 이런 문제가 생겨. 추출할때는 표집틀에서 추출하고, 오차도 그걸 기준으로 계산했는데, 추론은 모집단을 대상으로 추론한다는거야. 물론 표집틀이 충분히 커서 모집단의 상당부분을 커버한다면 문제가 안되는데, 그렇지 않아면 이건 문제가 심각해져.

바로 이런 경우야. 다음 그림을 보자고. 모집단의 전체 명단을 구할수 없기 때문에, 어떤 명단을 구해서 그걸 표집틀로 사용했다고 치자. 그런데, 그 표집틀에는 모집단의 절반도 안되는 사람밖에 들어있지 않아. 나머지 절반은 애초에 누락된 것이지. 그런데 이 표집을을 가지고 표본 1500명을 뽑아서 조사를 한 뒤 모집단 전체에 대해 예측한다면? 그렇다면 실제 결과는 표집오차 범위를 훌쩍 넘어갈수 있다는 거지. 물론 운좋게 맞아 떨어질수도 있고. 문제는 예측이 안된다는거야. 모집단의 절반이 배제된 상태에서 추출한 표본이 얼마나 모집단을 대표할수 있는지가 계산이 안돼. 이게 계산이 안되니 표집오차 어쩌구 하는건 다 헛말이 되는거고. 이건 단지 표본이 표집틀에 속한 사람들을 얼마나 잘 대표하느냐 밖에 설명을 못하는거지. 그래서 자꾸 이런 오류가 반복되면 통계장이들은 더 좋은 표집틀을 확보하려고 혈안이 되.


전화번호부의 굴욕

대한민국 성인 4000만명의 명단을 표집틀로 사용하는 것은 불가능하기 때문에, 그 동안에는 전화번호부를 많이 사용했어. 이건 세계적으로도 가장 오래된 기법이지. 전화번호부만큼 많은 사람들이 기록된 장부는 없으니까.

그런데 전화번호부에서 표본을 추출해서 조사하는 방법도 1920년대에는 엄청 욕을 들어먹었지. 그때만 해도 전화는 귀한 물건이었으니까. 그래서 중산층(전화가 있는 집) 주부들(그 시간에 집에 있는)의 의견만 반영된다는 거지. 하지만 1970년대 이후 웬만한 집에는 다 전화가 생기고, 또 조사시간을 오후 8시까지 연장하면서 안정되어 가는 추세였지. 또 1~2인 가구가 늘어나면서 대가족에 전화 1대 인 경우보다 전화번호부가 모집단을 커버하는 비율도 높아졌고.

하지만 문제는  1990년대 이후, 사생활 보호등을 이유로 전화번호에 등재를 하지 않는 사람들이 늘어나기 시작했다는 것이야. 다음 표를 보면 전화번호부가 전화번호의 절반도 대표하지 못한다는 것을 확인할 수 있어. 그러니 전화번호부를 표집틀로 사용할 경우 전화번호의 절반도 대표하지 못하는 것이지. 특히 전화번호부 등재를 거부한 사람들이 젊은 세대이거나 진보적 성향일 경우, 전화번호부는 대한민국 성인남녀의 표집틀이 아니라 보수적 중노년층의 표집틀이 되고 마는거야.



더 심각한 문제는 2002년 이후 아예 집전화가 없이 휴대전화만 쓰는 가구가 늘어나고 있다는 거야. 더군다나 그게 얼마나 되는지 모른다는거지. 대략 20%는 넘는다고들 보고 있어. 자, 그러니 이런 문제가 발생하는거야. 전화번호부는 이제 모집단의 30%정도 밖에 포괄하지 못하는 표집틀이야. 그래서 전화번호부를 표집틀로 사용한 여론조사는 연거푸 굴육을 면치 못했지. 2010년 지방선거가 그 굴욕의 하일라이트였지. 아래 그림처럼 전화번호부를 표집틀로 사용한 여론조사는 40-60대를 주로 조사한 다음, 이걸 20-30대도 포함한 전체집단의 뜻으로 예측했던것이지.


RDD 방식의 도입

그래서 411 총선때부터는 RDD방식이 사용되었어. 이건 뭐냐하면 전화번호부를 보고 번호를 추출하는 게 아니라 컴퓨터가 아무 전화번호부나 랜덤으로 생성한 뒤 그 번호로 전화를 거는거야. 이렇게 되면 전화번호부 미등재 가구도 포괄할수 있게 되긴 하지만, 또 문제가 아예 전화 없이 휴대폰만 있는 가구는 여전히 빠진다는거야. 더구나 그들이 20-30대라는 것. 일자리에서 소외되는 것도 억울한데 여론조사에서도 소외되는거야. 신발.


집전화 면접의 치명적인 문제

집전화 여론조사는 두개의 치명적 약점이 있어.

하나는 누가 전화를 받는지 알게 뭐냐는거야. 이건 이 방식이 도입될때부터 늘 제기된 문제인데, 한 가구에 유권자 4명이 산다고 하자고. 그런데 그 집에 주로 전화받는 사람이 정해져 있다고 하자고. 대개는 노인이나 주부들 아니겠어? 그러니 그 집 4명의 유권자들이 표본에 선정될 확률이 다른거야. 주부가 제일 높은거지. 이건 확률표집 원칙에 위배되. 그럼 대한민국 유권자를 모집단이라고 부를수 없고, 노인과 주부를 모집단이라고 불러야 하는거잖아?

또 하나는 특정계층이 계속 무응답층으로 남는다는 거야. 예를들면 맞벌이 부부같은 경우는 대개 집전화 여론조사 전화벨이 울릴때 집에 아무도 없다고. 미국 같은 경우는 일단 표본으로 선정된 번호가 있으면 받을때 까지 계속 재전화를 해서 응답률을 높여. 대표선수가 한 두번 훈련 안나왔다고 짜르면 안되잖아? 하지만 우리나라처럼 아침에 의뢰해서 저녁에 결과내놓으라는 식으로는 그게 안되. 이런식으로 꼼꼼하게 모든 표본들이 응답할때 까지 전화하고 또 전화하고 그러려면 4일~6일은 잡아야 해.  우리나라에 그러는 회사는 내가 아는 한 없어. 그러니 전화 안받으면 째고, 바로 다음 번호로 넘어간다고. 

게다가 보이스피싱이다 뭐다 해서 젊은 세대는 낯선 전화는 안받는 경우도 많고(저조한 응답률), 또 진보적인 사람들은 "안녕하세요, 저희는 "이런 영업멘트식 인사말 하면 바로 끊어버리는 경우가 많아. 이건 도대체 통제할 방법이 없어. 제일 좋은 방법은 역시 재전화 해서 응답을 호소하는 것 뿐이지. 물론 우리나라 여론조사 기관은 이런거 안하지. 왜? 돈을 별로 안주거든.

최악의 경우는 ARS 조사야. 이건 기계를 상대로 응답하기 때문에 도중에 끊어버리는 확률이 아주 높아. 아니면 건성으로 대답할 확률도 높고. 물론 앞에서 말한 전화조사의 문제점은 고스란히 가진채 +@로 문제가 더 있다는 거지.


휴대전화 조사가 결국 답이긴 한데...


통신환경이 바뀌었으면 표집틀도 바뀌어야 하는게 사실 맞아. 그렇다면 이제 전화의 시대는 간거야. 휴대전화시대가 온거지. 휴대전화 조사의 장점은 매우 많지만 가장 대표적으로 다음 둘을 들수 있어.

1. 집전화 없는 사람은 있어도, 휴대전화 없는 사람은 이제 거의 없다. 그러니 표집틀로 집전화번호가 아니라 휴대전화번호를 사용하는게 당연하지. 그래서 난 젊은 층이 과대대표되기 때문에 중노년층을 가중표집한다는 휴대전화조사는 틀렸다고 봐. 그건 노인들을 너무 우습게 보는 거라고. 요즘 할아버지들도 갤럭시들 써. 아이폰은 좀 무리지만....

2. 집전화는 가구당 하나지만 휴대전화는 사람당 하나다. 그러니까 전화번호대 응답자가 1:1 대응이 된다고. 집전화는 자꾸 그 집의 대표선수가 응답하기 때문에 아무래도 보수적으로 나오기가 쉽다. 집전화 여론조사에서 박근혜가 처발린 토론회 다음날 도리어 지지율이 올라간 결과도 당연한 결과다.


하지만 휴대전화도 문제가 있어.

우리나라의 휴대전화 보급률은 인구보다 더 많아. 그러니 표집틀이 모집단보다 더 큰 이상한 일이 벌어진다고. 이럴 경우 전화 두대, 세대 쓰는 사람이 표본에 선정될 확률이 더 높기 때문에 확률표집의 가정이 무너져.



게다가 휴대전화 조사를 편의상 ARS로 하는 경우가 많아. 그런데 집전화는 주부, 노인이라도 유권자가 받지만, 휴대전화 번호를 RDD방식으로 생성하면 그 중 1/4는 초중고등학생 전화번호일거라고. 그리고 이놈들이 또 ARS에 응답하는 경우도 생겨. 대략 20대라고 하면서. 이거 통제할 길이 있나? 없어.  그리고 낮에 회사폰으로 응답했는데, 퇴근길에 내 폰으로 또 오는 경우도 있어. 같은 사람이 두번 응답했는데 통제할 길 있나? 없어. 그래서 나는 휴대전화 조금 섞어서 하는 조사(리얼미터)나, 휴대전화 100% 조사(리서치뷰)나 다 문제가 해결되지 않았다고 봐.

이 문제를 한 방에 해결할 방법은 통신 3사가 쿨하게 가입자 명단 제출하는거야. 그럼 비로소 우리는 온국민을 포괄하는 표집틀을 가지게 되는거지. 하지만 이거 별로 안 행복해 보인다. 이 데이터를 가진자, 천하를 얻는거거든. 이거 무섭다고 살짝.  그러니 휴대전화 번호는 RDD로 생성하고, ARS가 아니라 면접원이 직접 통화하면서 응답을 받아내는 방식이 제일 좋을 것 같다. 아님 다른 방법을 개발하던가. 여튼 앞으로의 길은 휴대전화 조사에 있어. 하지만 갈길은 멀어.

내가 지금 여기서 하고자 하는 말은 여론조사 결과는 엉터리니 반대로 해석하라 뭐 이런게 아니야. 엉터린지 아닌지 판별하는것 조차 어렵다는 거야. 지금 상태로선. 틀린 조사보다 더 나쁜건 예측 불가능한 조사라고.

게다가 우리나라 여론조사는 표집틀에서 무작위로 추출하지 않고 할당 추출을 해. 그러니까 휴대전화 번호를 랜덤으로 걸어서 응답을 저장하는게 아니라 처음부터 특정 집단별로 응답자 수를 정해놓고 추출한다고. 주로 연령대를 기준으로 표본수를 할당하는데, 이건 엄밀히 말하면 확률표집이 아니기 떄문에 표집오차 어쩌구 하는 말을 사용해서는 안되는건데, 이것까지 따지고 들자면 복잡하니까 표집틀 까지만 이해해 두자.

그러니 여론조사 이건 그냥 재미로 보는거야. 미국 대선을 봐. 롬니가 오바마를 하마트면 이길것 같은 조사결과가 나왔지만, 뚜껑을 열어보니까 이건 뭐, 참패야. 미국은 우리보다 훨씬 더 꼼꼼하게 여론조사하는데도 그래. 갤럽, 라스무센 같은 대형 여론조사기관이 개인 블로거한테 굴욕을 당할 정도였으니. 그리고 우리나라처럼 날림으로 여론조사 하는 나라에서는 여론조사가 여론 조장의 효과도 있어. 한국인들 기질 있잖아? 이기는 쪽으로 붙으려는.

그리고 나름 유익하게 읽었으면, 내가 쓴 다른 책도 좀 봐줘

주인장이 쓴 책들  셀프 스폰서: 부정변증법의 저서들

이 블로그의 인기 게시물

지난 30년간의 민주화는 과연 실패했는가?

홍기빈의 "민주화는 실패했다."라는 글이 무척 많이 돌아다니고 있다. 얼핏 보면 훌륭한 글이다. 하지만 디테일을 보면 상당히 문제가 많은 글이라 한 마디 안 할수가 없다. 더구나 학교에서 정치, 경제를 가르치는 사회교사로서 이런 식의 민주주의에 대한 냉소글은 반드시 눌러 놓아야 한다.
(원문: http://m.khan.co.kr/view.html?artid=201610212041045)
이 글의 얼개는 그 동안 1987년의 성과를 냉소하는 민주화 냉소글의 표준적인 논리를 따라가고 있다. 한 마디로 "자본주의가 남아 있는 한 민주주의는 불완전하다." 라는 논리다. 이 글에서는 자본주의가 신자유주의, 자본의 지배 등의 말로 슬쩍 바뀌었을 뿐이다. 즉 정치권력을 아무리 교체해 본들 자본권력, 시장권력의 지배를 해소하지 못하는 한 민주주의는 완전하지 않다는 것이다.  그동안 이런 식의 냉소글은 1987년의 성과를 폄하하기 위해  "형식적 민주주의" 라는 말을 주로 사용했다. 이들이 말하는 형식적 민주주의란 3권분립, 보통선거, 복수정당제와 언론의 자유를 통한 권력의 감시로 대표되는 그런 정치제도다. 한 마디로 우리가 민주정치라고 부르는 바로 그것이다. 이 글에서는 "5년마다 한번씩 왕을 교체하는"이라는 말로 표현되어 있다. 그러면서 5년마다 한 번 왕을 교체하는 것 말고, 속살까지 민주화 되어야 민주주의라고 말하고 있다. 그 속살까지의 민주화는 결국 자본의 지배, 시장 권력으로부터 자유로운 세상을 말하는 것이다. 그 지긋지긋한 삼성공화국론의 또 다른 변주다.  그런데 다당제, 선거에 의한 정권교체의 의미를 형식적 민주주의로 폄하하는 논리의 뿌리는 1980년대때 이 논리를 펴는 지식인들의 상당수가 학습했던 러시아 혁명론의 연장선상에 닿아 있다. 1차혁명은 부르주아 민주주의 혁명, 2차혁명은 볼셰비키 혁명 이런 식의. 그러니까 지금 이 글은 이제 1987년의 부르주아 민주주의 혁명의 성과는 한계에…

1987년 6월 항쟁 (1) 1980년대의 전형적인 가두시위와 폭력 시위가 발생한 원인

이제 나도 어쩔수 없이 젊은이들로부터 "옛날 얘기 해주세요" 소리를 듣는 세대가 되었습니다. 그 현실을 기꺼이 받아들이며 할 수 있는 역할을 하겠습니다. 1987년 6월 항쟁과 2016년 11.12를 비교하는 기사들을 보고 그 시대에 태어나지 않았거나 어린이였던 분들이 많이 궁금해 하시니, 그 시절로 돌아가서 최대한 기억을 소환해서 적어 보겠습니다.

그 당시 시위가 폭력적이었던 것은 사실입니다. 하지만 11.12일에 일부 과격분자들이 말하는 것처럼 모여서 폭력으로 저지선을 뚫고 행진하는 그런 폭력이 아니었습니다. 1987년 당시 시위대의 폭력은 매우 처량한 폭력이었습니다. 경찰의 저지선을 돌파하기 위한 폭력이 아니라 시위를 하기 위한 10여분의 시간을 벌기 위한 폭력이었으니까요. 이걸 이해하려면 당시의 가두시위(가투)의 양상을 알아야 합니다.

그 시대에는 집회신고 이딴거 없었습니다. 시위는 신고제가 아니라 허가제였으며, 당연히 도심의 시위는 허가되지 않았습니다. 결국 모든 시위는 불법시위였습니다. 그래서  그 시절의 가두투쟁은 철저히 "비선"을 통해 조직되었습니다. 이런 식입니다. 난 NL이 아니라 PD였으니, 조직 단위의 이름은 PD기준으로(1987년에는 CA) 씁니다.

각 대학의 투쟁국(대체로 각 단과대학에서 제일 과격한 자가 단과대학 투쟁국장이 되고, 이들이 모여서 각 대학 투쟁국을 구성합니다. 그리고 각 대학 투쟁국장들이 모여서 전체적인 전술을 세웁니다.)장들이 모여서에서  '택"(택틱, 즉 전술의 준말)을 짭니다.

주로 택은 "오후 17시 30분 종로3가 사거리에서 집결하여 시위하고 경찰이 뜨면 일단 종로통 쪽으로 도망가서 해산 했다가 19시에 남대문 로터리에서 재집결 한다. 이때 퇴로는 남대문 시장이며 회현역을 통해 귀가한다. 17시30분의 동은 아무개 학형, 19시 동은 아무개 학형이며, 전투조는 이리저런 방식으로 물량을 공급한다" 이런 식으로 짜는데, 도청을 우려하여 철저히 …

민주시민은 책을 읽는다

민주주의는 단지 국민 다수의 통치가 아니다
우리나라에서 민주주의라는 말처럼 많이 쓰이는 말이 또 있을까? 좌우보혁을 떠나 저마다 민주주의를 말하며, 심지어 북한조차 자신을 민주주의 공화국이라고 지칭하고 있을 정도다. 하지만 민주주의가 무엇을 의미하는지 제대로 설명할 수 있는 사람은 그리 많지 않다. 막연하게 “권력이 국민으로부터 나오는 정치”, 혹은 “다수에 의한 정치” 정도로 말할 뿐이다. 물론 다수의 지배가 민주주의의 필수적인 조건인 것은 사실이다. 하지만 그것만으로는 부족하다. 역사를 뒤져보면 수천 년 전 카이사르에서부터 나폴레옹, 무솔리니, 히틀러, 최근의 두데르테에 이르기까지 대부분의 독재자들은 국민 다수의 지지를 기반으로 독재자가 되었다. 이들의 정치를 민주주의라고 말할 수는 없지 않은가? 민주주의는 그저 국민의 지지, 국민 다수의 지지만으로는 이루어지지 않는다. 중요한 것은 그 다수의 국민이 어떤 국민이며, 어떤 생각을 가지고 있었는가 하는 것이다. 만약 그들의 생각이 튼튼한 앎과 충분한 성찰에 기반하고 있다면 다수의 지지가 곧 민주주의가 되겠지만, 그렇지 않고 순간적인 감정이나 기호에 의한 것이라면 그것은 다만 폭민정치, 우민정치에 불과할 것이다. 민주주의는 머리수가 아니라 생각하는 머리수에 의해 이루어지는 정치다.
민주주의는 훌륭한 시민을 기반으로 한다
어제 오늘 이야기가 아니다. 이미 2500년 전 페리클레스는 자신들의 정치체제인 민주주의를 자랑하면서 “아테네 시민들은 나랏일에 대해 관심이 많고 잘 알고 있으며, 나랏일을 결정하기 위해 토론을 하며, 충분한 토론 없이 성급하게 결정하지 않는다” 라고 했다. 토크빌 역시 민주주의에 대한 명저 <미국의 민주주의>에서 교육 수준이 낮은 농민이나 노동자조차 지역사회의 쟁점에 대해 치열하게 토론할 수 있을 정도로 잘 알고 있다는 사실에 받은 깊은 감명을 기록해 두었다. 고대 아테네나 건국 시기 미국은 모두 ‘훌륭한’ 시민을 보유하고 있었던 것이다. 민주주의는 그저 국민이 아니라 나라의 주인 …