여론조사는 왜 널뛰기를 할까?

이거 총선때 썼던 포스팅인데, 요즘 그때보다 여론조사에 대한 문의가 더 많아서 개작합니다. 여론조사를 할때마다 기관마다 결과가 마구 달라서들 헷갈려 하시는데, 실제는 이보다 더 복잡하지만 최대한 간결하게 설명해 드리겠습니다.

1. 여론조사의 기본 개념

여론조사는 모든 사람들에게 물어보는 전수조사가 가장 정확하겠으나, 사실상 불가능하기 때문에 써베이 방식으로 이루어집니다. 써베이 방식이란 모두에게 물어볼 수 없을때  전체를 대표하는 소수를 골라낸뒤 그들에게 물어보고, 그 결과를 바탕으로 전체를 추론하는 조사 방식입니다. 여기에서 가장 중요한 용어들은 이런 것들입니다.

1) 모집단: 골라낼 전체입니다. 만약 내가 중학생의 의식조사를 한다면 대한민국 중학생이 모집단, 서울교육감 선거 지지율을 조사하려 한다면 서울시 유권자가 모집단이 됩니다.

2) 표본(샘플): 조사를 위해 골라낸 소수를 표본이라 합니다. 표본은 비록 소수이긴 하나 모집단을 대표할수 있어야 합니다. 대체로 2000명이 넘는 표본은 흔하지 않습니다. 통계가 발달한 미국은 2억 유권자를 1500-2000명 표본만 가지고도 상당히 정확하게 예측합니다.

3) 모수추정: 표본에서 확인된 결과를 바탕으로 모집단 전체에 대한 예측을 추론해내는 과정입니다.

3) 추출(샘플링): 모집단에서 표본을 골라내는 과정입니다. 표본이 얼마나 모집단을 잘 대표하느냐가 바로 이 추출 방식에 달려 있습니다. 무작위 추출(누가 표본이 될지 전혀 모르는 상태에서 완전 랜덤으로 표본이 추출됨)을 원칙으로 하지만, 실제로는 여러가지 보정이 가해집니다. 그러나 확률추출(모집단의 모든 구성원이 표본이 될 확률이 동등해야 한다)의 가정이 지켜진다면 모수추정이 가능합니다. 하지만 확률추출인지 여부가 의심스러우면 이 표본의 결과는 단지 표본의 결과일뿐 모집단의 결과라고 추론하기 어렵습니다.

4)표집오차: 표본이 모집단을 100% 반영한다는건 말도 안되는 가정이죠. 따라서 표집과정에서 당연히 오차가 나타납니다. 이 오차는  주로 표준오차로 제시됩니다. 설명하자면 열라 복잡하니까 그냥  +/- 범위로 표시되는 그 숫자입니다. 그리고 신뢰수준이란 말이 나오는데, 이건 실제 모집단의 값이 이 표본조사 값의 오차범위안에 있을 확률입니다.

예시) 권재원 후보의 지지율이 45%이며 표준오차는 +/-4%이며 신뢰수준은 95%

권재원의 지지율이 45%이며, 그 정확도가 95%란 뜻이 아니라, 권재원의 실제 지지율이 41%-49% 범위내에 있을 확률이 95%란 뜻입니다. 이게 바로 오차범위입니다. 그리고 통계학에서는 오차범위내의 숫자는 모두 같은 것으로 칩니다. 즉 같은 기간, 다른 조사기관에서 나온 결과가 어떤 회사는 42%, 어떤 회사는 44%가 될 수 있지만, 그 차이는 아무 의미 없단 뜻입니다.


문제) 권재원 대 이회창 지지율이 45%: 42% (표준오차 +/- 2%, 신뢰수준 95%). 이건 권재원이 앞선단 뜻일까요? 아닙니다.

우리말로 옮기면, 권재원의 실제 지지율이 43-47%, 이회창이 40%-44%에 있을 확률이 95%란 뜻입니다. 그러니 A사 조사결과 권45: 이42, 같은 날 B사 조사결과 권 43: 이 44 이렇게 승자가 다르게 나와도 두 결과는 이론적으로 동일한 결과입니다. 그래서 이럴경우 지지율 차이는 오차범위 안에 있다라고 말하면서 누가 앞서거나 뒤진다고 말하지 않는 것입니다. 사실, 그렇기 때문에 여론조사로 단일화를 결정하는건 아주 논란이 많아지는 방법입니다. 또 마찬가지 이유로 여론조사 결과 엎치락 뒤치락 하는 걸 가지고 일희일비할 이유가 없는 것입니다.



2. 유권자를 대표하는 표본은 어떻게 추출할까?


여론조사의 성패는 이 소수의 표본이(500명이든 1000명이든) 얼마나 모집단을 잘 대표하느냐에 달려 있습니다. 


그럼 어떻게 표본을 추출할까요?

대통령 선거니까 모집단은 대한민국 유권자 전체가 되겠죠. 그런데 무슨 명단이나 목록이 있어야 그 중에서 표본을 골라내겠죠? 길가는 사람 1000명 붙잡고 물어보기 이런짓 안하려면. 이때 모집단의 명단, 목록으로 사용되는 것을 '표집틀'이라고 합니다. 그러니, 모집단을 뭐라고 정의하던 결국 중요한 것은 표집틀입니다.

예를 들면 모집단이 안철수 지지자라고 합시다. 하지만 안철수 지지자를 누가 누군지 알수가 없죠. 그래서 안철수 펀드 입금자 목록을 가지고 거기서 1000명을 골라내는데, 이때 입금자 목록이 표집틀입니다. 짐작 하시겠지만, 모집단을 뭐라 정의하건 간에 그 표집틀을 뭘 사용했느냐에 따라 결과는 상당히 달라질수 있습니다. 장난치기 좋은 부분이죠. 입금자 목록의 경우 엄밀히 말하면 안철수 지지자 중 가장 적극적인 지지자만 대표할 수 있기 때문에 적절한 표집틀이라 할 수 없습니다.

그래서 여론조사 조금이라도 아는 사람은 당시 안캠프가 제안한 공론조사를 보고 기겁했던 겁니다. 민주당 대의원중 50명을 고른다면 문재인 지지자중 가장 적극적인 층이라 보기 어렵지만, 안펀드 입금자중 50명을 고르면 안철수 지지자중 가장 적극적인 층이 표집될테니까요.

자, 그럼 다시 본론으로 넘어가서, 대한민국 전체 유권자중 표본을 고르려고 합니다. 그런데 대한민국 국민의 목록을 어떻게 구할까요? 대통령도 쉽지 않은 일입니다.

1) 집전화 손전화? RDD?(표집틀을 확인할 것)

그래서 이때 사용하는 방법이 전화조사입니다. 대개 유권자중 전화 없는 사람이 없으니까요. 그래서 사실상 사람을 추출하는게 아니라 전화번호를 추출하게 됩니다. 그런데 여기서도 문제가 있습니다.


대부분에 통계조사에서 모집단은 실제 모집단이 아니라 이 표집틀 내의 명단을 말합니다.  그런데 전통적인 여론조사에서는 전화번호부를 표집틀로 많이 사용했습니다. 문제는 최근 10년 사이에 전화번호부가 모집단과 괴리가 발생했다는 것입니다. 만약 전화번호부를 표집틀로 사용하면 다음과 같은 상황이 발생합니다.

집전화가 있으나 전화번호부에 등재하지 않은 사람들과 휴대전화만 있는 사람들은 아예 모집단에서 제외됩니다. 따라서 이런 상황에서는 아무리 정교하게 표집방법을 설계해도 무조건 잘못된 표집이 될 수 밖에 없습니다. 더 심각한 문제는 표집오차는 이론적 모집단이 아니라 표집틀상의 모집단과 표본 사이에서 계산되기 때문에 애당초 표집틀이 잘못되었을 경우에는 표집오차가 매우 작게 나타난다는 것입니다. 하지만 실제로는 매우 심각한 표집오차가 발생한 것이죠. 

이런 문제를 막기 위해 rdd(임의 전화번호 걸기) 방식이 사용됩니다. 전화번호부에서 임의의 번호를 지정하는 것이 아니라, 전화번호와 관계 없이 지역국에 등록된 모든 번호를 대상으로 랜덤의 번호를 선정하는 것입니다. 이렇게 되면 표집오차는 크게 개선되지만 여전히 완전하지는 않습니다. 집전화가 아예 없는 사람들은 여전히 모집단에서조차 배제되기 때문이죠.

정리하면 이렇게 됩니다.  전화번호부를 표집틀로 사용한 여론조사는 전체 모집단의 50% 밖에 반영하지 못합니다. 게다가 조사 시간이 낮시간이거나 하면 50% 중에 다시 낮에 집에 있는 사람, 즉 노인이나 주부로 그 대상이 더 축소되니 사실상 25% 밖에 대표하지 못할 수도 있습니다.

그렇다면 rdd방식은 어떨까요? 이 역시 별다른 차이가 없다는 것이 학계의 결론입니다. 인터넷 전화가 무려 1000만대나 보급되었기 때문입니다. 현재 RDD는 인터넷 전화번호까지 생성하지는 않는 것으로 알고 있습니다. 게다가 아예 전화 없이 휴대전화만 있는 사람들도 있습니다. 인터넷 전화를 사용하거나 휴대전화만 사용하는 사람들이 주로 20~40대의 젊은 층이며, 또한 이들이 야권후보 지지성향이 강하다는 것을 감안한다면 전화번호부나 RDD방식을 사용한 전화조사 방식의 여론조사는 무조건 여당에게 유리한 결과가 나올수 밖에 없습니다. 20~40대의 20%가 인터넷 전화조차 없이 아예 휴대전화만 사용할 정도입니다.  출구조사가 선거 여론조사보다 비교적 더 정확한것은 전화가 아니라 면접 조사 방식으로 이루어지기 때문에 이런 표집틀의 문제가 덜 발생하기 때문입니다.

게다가 문제는 더 있습니다. 많은 여론조사가 확률적 표집 방식인 무선표집이 아니라 할당표집을 합니다. 할당표집은 비확률표집이기 때문에 원칙적으로 모수추정을 할 수 없습니다. 그래서 조사학회에서 선거 여론조사를 보도할때 이점을 유의하라고 누차 강조하고 있습니다. 다음과 같이요.

"비확률표집방법은 정확한 표집오차의 계산이 어려우므로 예측보도를 보다 신중하게 할 필요가 있다. 할당표집방법을 사용한 경우, 최신의 자료에 근거한 정확한 표집틀을 사용하였는지 확인한다."

그럼에도 불구하고 많은 언론사에서 할당표집을 한 여론조사의 결과를 무선표집을 한 여론조사와 표집틀에 대한 유의사항을 소개하지 않은채 마치 정확한 것처럼 보도하고 있습니다. 기자들이 그 정도로 무식할 것 같지는 않습니다. 그러니 이건 버젓이 알면서도 계속해서 보도한다고 보이며, 여론조사가 아니라 여론 조장(Push Poll이라고 합니다)이라고 봐야 합니다.


그러니 여론조사 결과만 볼 것이 아니라 이런 부분을 꼼꼼하게 살펴봐야 합니다. 이 세 방식을 어느 정도 비율로 혼합하는게 가장 좋은지는 일선의 조사자들의 노하우 외에는 답이 없습니다. 아무래도 긴급하게 조사하는 기관보다는 꾸준하게 조사하고 있는 기관이 더 좋은 표집틀을 확보했다고 믿는게 좋습니다. 리얼미터 같은 정례조사기관이 신뢰를 많이 받는 이유도 그 때문입니다.

2) 가중치

선거 조사이기 때문에 실제 투표할 사람의 의사가 더 중요합니다. 그래서 많은 여론조사기관들은 응답자들을 그냥 사용하는 것이 아니라 가중치를 부여합니다. 우선 연령, 직업 등 집단의 인구 비율에 따라 응답자 비율을 맞추는 경우가 많습니다. 젊은층의 응답률이 낮은 경우가 많아서 가중치를 부여하기도 하고, 또 노년층의 투표율이 높아서 이를 가중처리하기도 합니다. 자세한 방법은 설명하기 복잡하니까, 하여간 모집단과 가까워 지게 원자료를 가공한다라고 보심 됩니다. 하지만 이 가중치를 어떻게 주느냐에 따라 결과가 달라질수 있기 때문에 신중해야 합니다.

최근 연령별 투표율에 따른 가중처리가 많이 활용됩니다. 젊은 층이 노년 층보다 투표율이 0.7 정도기 때문에 이를 반영시키는 것이죠. 투표율 가중처리된 결과는 따라서 야권에게는 아주 보수적인 결과, 여권에게는 후한 결과로 받아들여집니다.

경우에 따라서는 표본을 추출하는 단계에서 특정 집단을 더 많이 추출하기도 합니다. 엄밀히 말하면 이런 경우는 확률표집이 아니기 때문에 모수추정을 하면 안되지만... 한겨레의 대선 여론조사가 표본 1300명 중 전라도 지역 표본을 추출단계에서 더 가중하여 추출합니다. 그래서 한겨레의 조사는 처음에는 항상 문재인 후보에게 유독 불리하게 나왔죠. 호남의 반노정서가 과대대표 되어서. 그런데 막판에 호남인심이 문재인으로 쏠리면서 안철수 후보에게 또 유독 불리하게 나오기도 했습니다.

3) 온갖 외부효과들

그럼에도 불구하고 여론조사는 정말 민감합니다. 아, 어 다른데 따라 결과가 엄청 달라집니다. 예를들면 조사 시간도 중요합니다. 만약 토요일 오전 10시-16시 사이에 집전화를 가지고 조사했다면 어떻게 될까요? 아마 젊고 활동적인 계층들은 거의 배제된 결과가 나올 것입니다. 따라서 전화로 조사를 할때는 전화 번호뿐 아니라 전화를 거는 시간도 골고루 할당해서 처리해야 합니다. 같은 조사라도 조사시간이 10시-16시인 조사보다는 12시- 20시인 조사가 누락이 적을 것이란 거죠.

또 응답자의 성실도, 성향도 영향을 크게 줍니다. 예컨대 50대 이상은 ARS일 경우에는 소신껏 응답하지만, 면접원에게 대답해야 하는 경우에는 박근혜라고 응답할 가능성이 커집니다. 이건 학습된 공포죠. 또 최근에 사퇴한 안철수 후보의 지지자들은 선거 여론조사 전화가 걸려오면 짜증을 내며 끊어버리거나(부동층이 늘어난 현상), 아니면 엉뚱한 후보로 응답하거나(박근혜가 제일 먼저 나오니까) 하는 등 왜곡된 응답을 할 가능성이 큽니다.

조사 문항의 문제도 있습니다. 조사 문항을 몇글자 고쳐서 응답을 엉뚱하게 유도하는 것은 일도 아닙니다. 똑같은 표본을 상대로 한번은 문재인이, 한번은 박근혜가 이기게끔 설문조사할 수도 있습니다. 문항의 마술로요. 그러니 어떤 여론조사 결과가 나오면 문항이 무엇이었는지 반드시 살펴 보아야 합니다.



자, 이제 대선 후보 등록이 이루어졌습니다. 선거가 끝나면 항상 여론조사가 맞았네 틀렸네 하면서 말들이 많습니다. 그런데 최근 몇년 사이에 선거 여론조사가 틀리는 경우가 매우 많아졌습니다. 심지어 여론조사 10% 차이가 쉽게 뒤집히는 경우도 나옵니다. 그런 반면에 출구조사는 비교적 정확합니다. 이런 차이는 어디서 발생할까요? 앞에서도 말했지만 여론조사는 매우 민감한 조사입니다. 표집틀의 설정, 추출방법, 가중방법, 조사 시간, 조사 문항 등에서 사소한 차이가 매우 큰 차이로 번져나갈수 있습니다. 우리는 여론조사를 얼마나 믿어야 할까요? 여론 조사자는 이런 오류가능성을 줄이기 위해 최선을 다해야 하는데, 그게 쉽지 않습니다. 특히 여론조사를 통해 오히려 여론을 조장하여 밴드웨건 효과를 꾀하는 경우가 많아지는 요즘 여론조사 결과를 보는 눈은 더욱 신중해져야 합니다.

이 블로그의 인기 게시물

1987년 6월 항쟁 (1) 1980년대의 전형적인 가두시위와 폭력 시위가 발생한 원인

민주시민은 책을 읽는다

학종보다 더 걱정되는 것은 학종 다음의 셀프학종