기본 콘텐츠로 건너뛰기

여론조사는 왜 널뛰기를 할까?

이거 총선때 썼던 포스팅인데, 요즘 그때보다 여론조사에 대한 문의가 더 많아서 개작합니다. 여론조사를 할때마다 기관마다 결과가 마구 달라서들 헷갈려 하시는데, 실제는 이보다 더 복잡하지만 최대한 간결하게 설명해 드리겠습니다.

1. 여론조사의 기본 개념

여론조사는 모든 사람들에게 물어보는 전수조사가 가장 정확하겠으나, 사실상 불가능하기 때문에 써베이 방식으로 이루어집니다. 써베이 방식이란 모두에게 물어볼 수 없을때  전체를 대표하는 소수를 골라낸뒤 그들에게 물어보고, 그 결과를 바탕으로 전체를 추론하는 조사 방식입니다. 여기에서 가장 중요한 용어들은 이런 것들입니다.

1) 모집단: 골라낼 전체입니다. 만약 내가 중학생의 의식조사를 한다면 대한민국 중학생이 모집단, 서울교육감 선거 지지율을 조사하려 한다면 서울시 유권자가 모집단이 됩니다.

2) 표본(샘플): 조사를 위해 골라낸 소수를 표본이라 합니다. 표본은 비록 소수이긴 하나 모집단을 대표할수 있어야 합니다. 대체로 2000명이 넘는 표본은 흔하지 않습니다. 통계가 발달한 미국은 2억 유권자를 1500-2000명 표본만 가지고도 상당히 정확하게 예측합니다.

3) 모수추정: 표본에서 확인된 결과를 바탕으로 모집단 전체에 대한 예측을 추론해내는 과정입니다.

3) 추출(샘플링): 모집단에서 표본을 골라내는 과정입니다. 표본이 얼마나 모집단을 잘 대표하느냐가 바로 이 추출 방식에 달려 있습니다. 무작위 추출(누가 표본이 될지 전혀 모르는 상태에서 완전 랜덤으로 표본이 추출됨)을 원칙으로 하지만, 실제로는 여러가지 보정이 가해집니다. 그러나 확률추출(모집단의 모든 구성원이 표본이 될 확률이 동등해야 한다)의 가정이 지켜진다면 모수추정이 가능합니다. 하지만 확률추출인지 여부가 의심스러우면 이 표본의 결과는 단지 표본의 결과일뿐 모집단의 결과라고 추론하기 어렵습니다.

4)표집오차: 표본이 모집단을 100% 반영한다는건 말도 안되는 가정이죠. 따라서 표집과정에서 당연히 오차가 나타납니다. 이 오차는  주로 표준오차로 제시됩니다. 설명하자면 열라 복잡하니까 그냥  +/- 범위로 표시되는 그 숫자입니다. 그리고 신뢰수준이란 말이 나오는데, 이건 실제 모집단의 값이 이 표본조사 값의 오차범위안에 있을 확률입니다.

예시) 권재원 후보의 지지율이 45%이며 표준오차는 +/-4%이며 신뢰수준은 95%

권재원의 지지율이 45%이며, 그 정확도가 95%란 뜻이 아니라, 권재원의 실제 지지율이 41%-49% 범위내에 있을 확률이 95%란 뜻입니다. 이게 바로 오차범위입니다. 그리고 통계학에서는 오차범위내의 숫자는 모두 같은 것으로 칩니다. 즉 같은 기간, 다른 조사기관에서 나온 결과가 어떤 회사는 42%, 어떤 회사는 44%가 될 수 있지만, 그 차이는 아무 의미 없단 뜻입니다.


문제) 권재원 대 이회창 지지율이 45%: 42% (표준오차 +/- 2%, 신뢰수준 95%). 이건 권재원이 앞선단 뜻일까요? 아닙니다.

우리말로 옮기면, 권재원의 실제 지지율이 43-47%, 이회창이 40%-44%에 있을 확률이 95%란 뜻입니다. 그러니 A사 조사결과 권45: 이42, 같은 날 B사 조사결과 권 43: 이 44 이렇게 승자가 다르게 나와도 두 결과는 이론적으로 동일한 결과입니다. 그래서 이럴경우 지지율 차이는 오차범위 안에 있다라고 말하면서 누가 앞서거나 뒤진다고 말하지 않는 것입니다. 사실, 그렇기 때문에 여론조사로 단일화를 결정하는건 아주 논란이 많아지는 방법입니다. 또 마찬가지 이유로 여론조사 결과 엎치락 뒤치락 하는 걸 가지고 일희일비할 이유가 없는 것입니다.



2. 유권자를 대표하는 표본은 어떻게 추출할까?


여론조사의 성패는 이 소수의 표본이(500명이든 1000명이든) 얼마나 모집단을 잘 대표하느냐에 달려 있습니다. 


그럼 어떻게 표본을 추출할까요?

대통령 선거니까 모집단은 대한민국 유권자 전체가 되겠죠. 그런데 무슨 명단이나 목록이 있어야 그 중에서 표본을 골라내겠죠? 길가는 사람 1000명 붙잡고 물어보기 이런짓 안하려면. 이때 모집단의 명단, 목록으로 사용되는 것을 '표집틀'이라고 합니다. 그러니, 모집단을 뭐라고 정의하던 결국 중요한 것은 표집틀입니다.

예를 들면 모집단이 안철수 지지자라고 합시다. 하지만 안철수 지지자를 누가 누군지 알수가 없죠. 그래서 안철수 펀드 입금자 목록을 가지고 거기서 1000명을 골라내는데, 이때 입금자 목록이 표집틀입니다. 짐작 하시겠지만, 모집단을 뭐라 정의하건 간에 그 표집틀을 뭘 사용했느냐에 따라 결과는 상당히 달라질수 있습니다. 장난치기 좋은 부분이죠. 입금자 목록의 경우 엄밀히 말하면 안철수 지지자 중 가장 적극적인 지지자만 대표할 수 있기 때문에 적절한 표집틀이라 할 수 없습니다.

그래서 여론조사 조금이라도 아는 사람은 당시 안캠프가 제안한 공론조사를 보고 기겁했던 겁니다. 민주당 대의원중 50명을 고른다면 문재인 지지자중 가장 적극적인 층이라 보기 어렵지만, 안펀드 입금자중 50명을 고르면 안철수 지지자중 가장 적극적인 층이 표집될테니까요.

자, 그럼 다시 본론으로 넘어가서, 대한민국 전체 유권자중 표본을 고르려고 합니다. 그런데 대한민국 국민의 목록을 어떻게 구할까요? 대통령도 쉽지 않은 일입니다.

1) 집전화 손전화? RDD?(표집틀을 확인할 것)

그래서 이때 사용하는 방법이 전화조사입니다. 대개 유권자중 전화 없는 사람이 없으니까요. 그래서 사실상 사람을 추출하는게 아니라 전화번호를 추출하게 됩니다. 그런데 여기서도 문제가 있습니다.


대부분에 통계조사에서 모집단은 실제 모집단이 아니라 이 표집틀 내의 명단을 말합니다.  그런데 전통적인 여론조사에서는 전화번호부를 표집틀로 많이 사용했습니다. 문제는 최근 10년 사이에 전화번호부가 모집단과 괴리가 발생했다는 것입니다. 만약 전화번호부를 표집틀로 사용하면 다음과 같은 상황이 발생합니다.

집전화가 있으나 전화번호부에 등재하지 않은 사람들과 휴대전화만 있는 사람들은 아예 모집단에서 제외됩니다. 따라서 이런 상황에서는 아무리 정교하게 표집방법을 설계해도 무조건 잘못된 표집이 될 수 밖에 없습니다. 더 심각한 문제는 표집오차는 이론적 모집단이 아니라 표집틀상의 모집단과 표본 사이에서 계산되기 때문에 애당초 표집틀이 잘못되었을 경우에는 표집오차가 매우 작게 나타난다는 것입니다. 하지만 실제로는 매우 심각한 표집오차가 발생한 것이죠. 

이런 문제를 막기 위해 rdd(임의 전화번호 걸기) 방식이 사용됩니다. 전화번호부에서 임의의 번호를 지정하는 것이 아니라, 전화번호와 관계 없이 지역국에 등록된 모든 번호를 대상으로 랜덤의 번호를 선정하는 것입니다. 이렇게 되면 표집오차는 크게 개선되지만 여전히 완전하지는 않습니다. 집전화가 아예 없는 사람들은 여전히 모집단에서조차 배제되기 때문이죠.

정리하면 이렇게 됩니다.  전화번호부를 표집틀로 사용한 여론조사는 전체 모집단의 50% 밖에 반영하지 못합니다. 게다가 조사 시간이 낮시간이거나 하면 50% 중에 다시 낮에 집에 있는 사람, 즉 노인이나 주부로 그 대상이 더 축소되니 사실상 25% 밖에 대표하지 못할 수도 있습니다.

그렇다면 rdd방식은 어떨까요? 이 역시 별다른 차이가 없다는 것이 학계의 결론입니다. 인터넷 전화가 무려 1000만대나 보급되었기 때문입니다. 현재 RDD는 인터넷 전화번호까지 생성하지는 않는 것으로 알고 있습니다. 게다가 아예 전화 없이 휴대전화만 있는 사람들도 있습니다. 인터넷 전화를 사용하거나 휴대전화만 사용하는 사람들이 주로 20~40대의 젊은 층이며, 또한 이들이 야권후보 지지성향이 강하다는 것을 감안한다면 전화번호부나 RDD방식을 사용한 전화조사 방식의 여론조사는 무조건 여당에게 유리한 결과가 나올수 밖에 없습니다. 20~40대의 20%가 인터넷 전화조차 없이 아예 휴대전화만 사용할 정도입니다.  출구조사가 선거 여론조사보다 비교적 더 정확한것은 전화가 아니라 면접 조사 방식으로 이루어지기 때문에 이런 표집틀의 문제가 덜 발생하기 때문입니다.

게다가 문제는 더 있습니다. 많은 여론조사가 확률적 표집 방식인 무선표집이 아니라 할당표집을 합니다. 할당표집은 비확률표집이기 때문에 원칙적으로 모수추정을 할 수 없습니다. 그래서 조사학회에서 선거 여론조사를 보도할때 이점을 유의하라고 누차 강조하고 있습니다. 다음과 같이요.

"비확률표집방법은 정확한 표집오차의 계산이 어려우므로 예측보도를 보다 신중하게 할 필요가 있다. 할당표집방법을 사용한 경우, 최신의 자료에 근거한 정확한 표집틀을 사용하였는지 확인한다."

그럼에도 불구하고 많은 언론사에서 할당표집을 한 여론조사의 결과를 무선표집을 한 여론조사와 표집틀에 대한 유의사항을 소개하지 않은채 마치 정확한 것처럼 보도하고 있습니다. 기자들이 그 정도로 무식할 것 같지는 않습니다. 그러니 이건 버젓이 알면서도 계속해서 보도한다고 보이며, 여론조사가 아니라 여론 조장(Push Poll이라고 합니다)이라고 봐야 합니다.


그러니 여론조사 결과만 볼 것이 아니라 이런 부분을 꼼꼼하게 살펴봐야 합니다. 이 세 방식을 어느 정도 비율로 혼합하는게 가장 좋은지는 일선의 조사자들의 노하우 외에는 답이 없습니다. 아무래도 긴급하게 조사하는 기관보다는 꾸준하게 조사하고 있는 기관이 더 좋은 표집틀을 확보했다고 믿는게 좋습니다. 리얼미터 같은 정례조사기관이 신뢰를 많이 받는 이유도 그 때문입니다.

2) 가중치

선거 조사이기 때문에 실제 투표할 사람의 의사가 더 중요합니다. 그래서 많은 여론조사기관들은 응답자들을 그냥 사용하는 것이 아니라 가중치를 부여합니다. 우선 연령, 직업 등 집단의 인구 비율에 따라 응답자 비율을 맞추는 경우가 많습니다. 젊은층의 응답률이 낮은 경우가 많아서 가중치를 부여하기도 하고, 또 노년층의 투표율이 높아서 이를 가중처리하기도 합니다. 자세한 방법은 설명하기 복잡하니까, 하여간 모집단과 가까워 지게 원자료를 가공한다라고 보심 됩니다. 하지만 이 가중치를 어떻게 주느냐에 따라 결과가 달라질수 있기 때문에 신중해야 합니다.

최근 연령별 투표율에 따른 가중처리가 많이 활용됩니다. 젊은 층이 노년 층보다 투표율이 0.7 정도기 때문에 이를 반영시키는 것이죠. 투표율 가중처리된 결과는 따라서 야권에게는 아주 보수적인 결과, 여권에게는 후한 결과로 받아들여집니다.

경우에 따라서는 표본을 추출하는 단계에서 특정 집단을 더 많이 추출하기도 합니다. 엄밀히 말하면 이런 경우는 확률표집이 아니기 때문에 모수추정을 하면 안되지만... 한겨레의 대선 여론조사가 표본 1300명 중 전라도 지역 표본을 추출단계에서 더 가중하여 추출합니다. 그래서 한겨레의 조사는 처음에는 항상 문재인 후보에게 유독 불리하게 나왔죠. 호남의 반노정서가 과대대표 되어서. 그런데 막판에 호남인심이 문재인으로 쏠리면서 안철수 후보에게 또 유독 불리하게 나오기도 했습니다.

3) 온갖 외부효과들

그럼에도 불구하고 여론조사는 정말 민감합니다. 아, 어 다른데 따라 결과가 엄청 달라집니다. 예를들면 조사 시간도 중요합니다. 만약 토요일 오전 10시-16시 사이에 집전화를 가지고 조사했다면 어떻게 될까요? 아마 젊고 활동적인 계층들은 거의 배제된 결과가 나올 것입니다. 따라서 전화로 조사를 할때는 전화 번호뿐 아니라 전화를 거는 시간도 골고루 할당해서 처리해야 합니다. 같은 조사라도 조사시간이 10시-16시인 조사보다는 12시- 20시인 조사가 누락이 적을 것이란 거죠.

또 응답자의 성실도, 성향도 영향을 크게 줍니다. 예컨대 50대 이상은 ARS일 경우에는 소신껏 응답하지만, 면접원에게 대답해야 하는 경우에는 박근혜라고 응답할 가능성이 커집니다. 이건 학습된 공포죠. 또 최근에 사퇴한 안철수 후보의 지지자들은 선거 여론조사 전화가 걸려오면 짜증을 내며 끊어버리거나(부동층이 늘어난 현상), 아니면 엉뚱한 후보로 응답하거나(박근혜가 제일 먼저 나오니까) 하는 등 왜곡된 응답을 할 가능성이 큽니다.

조사 문항의 문제도 있습니다. 조사 문항을 몇글자 고쳐서 응답을 엉뚱하게 유도하는 것은 일도 아닙니다. 똑같은 표본을 상대로 한번은 문재인이, 한번은 박근혜가 이기게끔 설문조사할 수도 있습니다. 문항의 마술로요. 그러니 어떤 여론조사 결과가 나오면 문항이 무엇이었는지 반드시 살펴 보아야 합니다.



자, 이제 대선 후보 등록이 이루어졌습니다. 선거가 끝나면 항상 여론조사가 맞았네 틀렸네 하면서 말들이 많습니다. 그런데 최근 몇년 사이에 선거 여론조사가 틀리는 경우가 매우 많아졌습니다. 심지어 여론조사 10% 차이가 쉽게 뒤집히는 경우도 나옵니다. 그런 반면에 출구조사는 비교적 정확합니다. 이런 차이는 어디서 발생할까요? 앞에서도 말했지만 여론조사는 매우 민감한 조사입니다. 표집틀의 설정, 추출방법, 가중방법, 조사 시간, 조사 문항 등에서 사소한 차이가 매우 큰 차이로 번져나갈수 있습니다. 우리는 여론조사를 얼마나 믿어야 할까요? 여론 조사자는 이런 오류가능성을 줄이기 위해 최선을 다해야 하는데, 그게 쉽지 않습니다. 특히 여론조사를 통해 오히려 여론을 조장하여 밴드웨건 효과를 꾀하는 경우가 많아지는 요즘 여론조사 결과를 보는 눈은 더욱 신중해져야 합니다.

이 블로그의 인기 게시물

지난 30년간의 민주화는 과연 실패했는가?

홍기빈의 "민주화는 실패했다."라는 글이 무척 많이 돌아다니고 있다. 얼핏 보면 훌륭한 글이다. 하지만 디테일을 보면 상당히 문제가 많은 글이라 한 마디 안 할수가 없다. 더구나 학교에서 정치, 경제를 가르치는 사회교사로서 이런 식의 민주주의에 대한 냉소글은 반드시 눌러 놓아야 한다.
(원문: http://m.khan.co.kr/view.html?artid=201610212041045)
이 글의 얼개는 그 동안 1987년의 성과를 냉소하는 민주화 냉소글의 표준적인 논리를 따라가고 있다. 한 마디로 "자본주의가 남아 있는 한 민주주의는 불완전하다." 라는 논리다. 이 글에서는 자본주의가 신자유주의, 자본의 지배 등의 말로 슬쩍 바뀌었을 뿐이다. 즉 정치권력을 아무리 교체해 본들 자본권력, 시장권력의 지배를 해소하지 못하는 한 민주주의는 완전하지 않다는 것이다.  그동안 이런 식의 냉소글은 1987년의 성과를 폄하하기 위해  "형식적 민주주의" 라는 말을 주로 사용했다. 이들이 말하는 형식적 민주주의란 3권분립, 보통선거, 복수정당제와 언론의 자유를 통한 권력의 감시로 대표되는 그런 정치제도다. 한 마디로 우리가 민주정치라고 부르는 바로 그것이다. 이 글에서는 "5년마다 한번씩 왕을 교체하는"이라는 말로 표현되어 있다. 그러면서 5년마다 한 번 왕을 교체하는 것 말고, 속살까지 민주화 되어야 민주주의라고 말하고 있다. 그 속살까지의 민주화는 결국 자본의 지배, 시장 권력으로부터 자유로운 세상을 말하는 것이다. 그 지긋지긋한 삼성공화국론의 또 다른 변주다.  그런데 다당제, 선거에 의한 정권교체의 의미를 형식적 민주주의로 폄하하는 논리의 뿌리는 1980년대때 이 논리를 펴는 지식인들의 상당수가 학습했던 러시아 혁명론의 연장선상에 닿아 있다. 1차혁명은 부르주아 민주주의 혁명, 2차혁명은 볼셰비키 혁명 이런 식의. 그러니까 지금 이 글은 이제 1987년의 부르주아 민주주의 혁명의 성과는 한계에…

1987년 6월 항쟁 (1) 1980년대의 전형적인 가두시위와 폭력 시위가 발생한 원인

이제 나도 어쩔수 없이 젊은이들로부터 "옛날 얘기 해주세요" 소리를 듣는 세대가 되었습니다. 그 현실을 기꺼이 받아들이며 할 수 있는 역할을 하겠습니다. 1987년 6월 항쟁과 2016년 11.12를 비교하는 기사들을 보고 그 시대에 태어나지 않았거나 어린이였던 분들이 많이 궁금해 하시니, 그 시절로 돌아가서 최대한 기억을 소환해서 적어 보겠습니다.

그 당시 시위가 폭력적이었던 것은 사실입니다. 하지만 11.12일에 일부 과격분자들이 말하는 것처럼 모여서 폭력으로 저지선을 뚫고 행진하는 그런 폭력이 아니었습니다. 1987년 당시 시위대의 폭력은 매우 처량한 폭력이었습니다. 경찰의 저지선을 돌파하기 위한 폭력이 아니라 시위를 하기 위한 10여분의 시간을 벌기 위한 폭력이었으니까요. 이걸 이해하려면 당시의 가두시위(가투)의 양상을 알아야 합니다.

그 시대에는 집회신고 이딴거 없었습니다. 시위는 신고제가 아니라 허가제였으며, 당연히 도심의 시위는 허가되지 않았습니다. 결국 모든 시위는 불법시위였습니다. 그래서  그 시절의 가두투쟁은 철저히 "비선"을 통해 조직되었습니다. 이런 식입니다. 난 NL이 아니라 PD였으니, 조직 단위의 이름은 PD기준으로(1987년에는 CA) 씁니다.

각 대학의 투쟁국(대체로 각 단과대학에서 제일 과격한 자가 단과대학 투쟁국장이 되고, 이들이 모여서 각 대학 투쟁국을 구성합니다. 그리고 각 대학 투쟁국장들이 모여서 전체적인 전술을 세웁니다.)장들이 모여서에서  '택"(택틱, 즉 전술의 준말)을 짭니다.

주로 택은 "오후 17시 30분 종로3가 사거리에서 집결하여 시위하고 경찰이 뜨면 일단 종로통 쪽으로 도망가서 해산 했다가 19시에 남대문 로터리에서 재집결 한다. 이때 퇴로는 남대문 시장이며 회현역을 통해 귀가한다. 17시30분의 동은 아무개 학형, 19시 동은 아무개 학형이며, 전투조는 이리저런 방식으로 물량을 공급한다" 이런 식으로 짜는데, 도청을 우려하여 철저히 …

민주시민은 책을 읽는다

민주주의는 단지 국민 다수의 통치가 아니다
우리나라에서 민주주의라는 말처럼 많이 쓰이는 말이 또 있을까? 좌우보혁을 떠나 저마다 민주주의를 말하며, 심지어 북한조차 자신을 민주주의 공화국이라고 지칭하고 있을 정도다. 하지만 민주주의가 무엇을 의미하는지 제대로 설명할 수 있는 사람은 그리 많지 않다. 막연하게 “권력이 국민으로부터 나오는 정치”, 혹은 “다수에 의한 정치” 정도로 말할 뿐이다. 물론 다수의 지배가 민주주의의 필수적인 조건인 것은 사실이다. 하지만 그것만으로는 부족하다. 역사를 뒤져보면 수천 년 전 카이사르에서부터 나폴레옹, 무솔리니, 히틀러, 최근의 두데르테에 이르기까지 대부분의 독재자들은 국민 다수의 지지를 기반으로 독재자가 되었다. 이들의 정치를 민주주의라고 말할 수는 없지 않은가? 민주주의는 그저 국민의 지지, 국민 다수의 지지만으로는 이루어지지 않는다. 중요한 것은 그 다수의 국민이 어떤 국민이며, 어떤 생각을 가지고 있었는가 하는 것이다. 만약 그들의 생각이 튼튼한 앎과 충분한 성찰에 기반하고 있다면 다수의 지지가 곧 민주주의가 되겠지만, 그렇지 않고 순간적인 감정이나 기호에 의한 것이라면 그것은 다만 폭민정치, 우민정치에 불과할 것이다. 민주주의는 머리수가 아니라 생각하는 머리수에 의해 이루어지는 정치다.
민주주의는 훌륭한 시민을 기반으로 한다
어제 오늘 이야기가 아니다. 이미 2500년 전 페리클레스는 자신들의 정치체제인 민주주의를 자랑하면서 “아테네 시민들은 나랏일에 대해 관심이 많고 잘 알고 있으며, 나랏일을 결정하기 위해 토론을 하며, 충분한 토론 없이 성급하게 결정하지 않는다” 라고 했다. 토크빌 역시 민주주의에 대한 명저 <미국의 민주주의>에서 교육 수준이 낮은 농민이나 노동자조차 지역사회의 쟁점에 대해 치열하게 토론할 수 있을 정도로 잘 알고 있다는 사실에 받은 깊은 감명을 기록해 두었다. 고대 아테네나 건국 시기 미국은 모두 ‘훌륭한’ 시민을 보유하고 있었던 것이다. 민주주의는 그저 국민이 아니라 나라의 주인 …