제보하기

[취재파일] SBS는 文 당선확률을 어떻게 예측했나

선거 결과를 내다본 '유.확.당'

이상엽 기자 science@sbs.co.kr

작성 2017.05.13 08:20 수정 2017.05.14 07:42 조회 재생수47,592
프린트기사본문프린트하기 글자 크기
기사 대표 이미지:[취재파일] SBS는 文 당선확률을 어떻게 예측했나
● SBS는 文 당선확률을 어떻게 예측했나 

제19대 대통령 선거가 문재인 후보의 당선으로 막을 내리고, 새 정부의 출범이 시작됐습니다. 선거가 끝난 지 만 사흘이 지났지만, SBS의 선거방송 '2017 국민의 선택'에 대한 국내외의 호평은 아직 이어지고 있습니다.

특히 시시각각 들어오는 개표 정보를 재치 있고 기발하게 전달한 바이폰(VIPON)이나, 실시간 당선 예측 시스템 '유·확·당'에 대해 '어떻게 한 것인지 궁금하다'는 문의가 가장 많았습니다.

사실 문재인 후보의 당선은 이미 예견돼 왔던 상황이었지만, 시청자들의 관심은 식지 않았습니다. 출구조사 결과는 어떨지, 출구조사와 실제 개표는 얼마나 차이가 날 지, 언제 '당선 유력'이 뜰지, '당선 확실'은 언제쯤일지…. 이런 궁금증들이 이어졌습니다. 그리고, 이런 물음에 답하기 위해 화려한 무대 세트 뒤에서 시시각각 들어오는 개표 데이터를 최적의 형태로 가공해 전달하기 위한 노력은 간단치 않았습니다.

이번 대선 방송에서 한신대 응용통계학과 변종석 교수와 함께 '유·확·당'을 담당하며 쌓은 노하우를 이 취재파일을 통해 공유하려 합니다. 이미 본 방송에서도 설명해 드렸지만 '유·확·당'은 '유력, 확실, 당선'의 줄임말입니다. 실시간으로 각 후보의 당선확률을 계산해, 당선이 유력하거나 확실해지는 시점을 정확히 포착해내는 SBS만의 독자적 시스템입니다.
관련 사진SBS 선거팀이 가장 고심한 부분은 '개표 초반의 공백을 어떻게 메울 것인가'였습니다. 개표율이 1% 미만인 극초반에는 개표가 아직 시작되지 않은 지역이 다수 있게 마련입니다. 따라서 이때의 개표 결과를 전국 상황에 맞춰 적용하는 것은 매우 위험합니다. 출구조사에서 2위나 3위로 예측된 후보의 '텃밭'에서 몰표가 쏟아져 나올 경우 순식간에 판세가 요동칩니다.

이번 대선에서도 그랬습니다. 20시 정각 투표가 종료되고, 첫 개표 데이터가 중앙선관위를 통해 SBS로 전달된 것은 정확히 1시간 뒤인 21시 정각이었습니다. 그런데 첫 개표가 나온 지역에서는 홍준표 후보의 표가 더 많았습니다.

과거 기존 당선 예측 시스템에서는 이 부분에서 혼선을 빚었을 것입니다. 하지만 SBS는 이번 대선에서 여기에 대한 대비가 되어 있었습니다. 전국 광역 선거구를 몇 개의 그룹으로 묶어 오차를 최소화했기 때문입니다.
서울을 예로 들면 서초구와 강남구를 1그룹으로 묶어, 만약 강남구에서 개표가 시작되지 않은 곳이 있다면 인근의 송파구나 다른 지역 대신 성향이 비슷한 서초구의 개표 결과를 준용하는 방식입니다. 또 단순히 정치적 성향뿐만 아니라 성비나 인구구성비, 과거 투표율 등 여러 조건을 종합적으로 고려해 선거구들을 묶음으로써 개표 초반에 발생할 수 있는 오차를 최소한으로 줄였습니다.

이 때문에 개표 극초반 20여분 동안 홍 후보가 우세를 보이는 상황에서도 SBS의 '유.확.당'은 문재인 후보가 1위를 할 것으로 예측할 수 있었고, 그것은 곧 현실로 드러났습니다. 홍 후보의 극초반 우세는 21시 21분까지만 이어졌습니다. 그 뒤로는 다른 지역에서도 개표가 시작되면서 문재인 후보가 1위를 차지했고, 얼마 안 가 큰 폭으로 격차를 벌렸습니다.

예측이 정확히 맞아 떨어진 겁니다. 특히 중요한 것은 이 예측이 출구조사 결과와는 전혀 무관하게, 실제 개표 추이만을 바탕으로 이뤄진 것이라는 점입니다.

SBS  '유·확·당'이 가진 또 하나의 강점은 실시간으로 당선 확률과 예상 최종 득표율을 계산할 수 있다는 점입니다. 한신대 변종석 교수가 개발한 통계 분석 모델에 기반해 기존 선거 예측 시스템을 한층 업그레이드 시킨 결과물입니다.
관련 사진SBS가 문재인 후보의 '당선 유력'을 발표한 시점은 22시 5분쯤입니다. '유·확·당'의 기준으로는 당선 확률이 95%를 넘어설 때 '당선 유력'을 선언합니다. 당시 전국 평균 개표율은 3.5%, 문재인 후보의 득표율은 37.1%를 기록하고 있었습니다. 홍준표 후보는 29.3%, 안철수 후보는 21.4%를 득표하고 있었습니다.

그런데 사실 문재인 후보의 당선 확률이 95%를 처음 넘어선 시점은 22시 5분이 아니었습니다. 21시 49분에 처음으로 문 후보의 당선 확률이 95%를 넘어섰지만, 이후 후속 개표에서 다른 후보들의 표가 더 많이 나오면서 이 당선 확률은 다시 95% 아래로 떨어졌습니다. 다른 이벤트도 아닌 대한민국 대통령을 뽑는 중요한 선거이기에, 이처럼 확률이 위아래로 요동칠 경우 발표에는 최대한 신중을 기하지 않을 수 없습니다. 따라서 SBS는 '당선 확률 5분 연속 95% 유지'를 내부적 조건으로 삼았고, 이 기준이 충족되는 시점을 기준으로 ‘당선 유력’을 공식적으로 선언했습니다. 결과적으로, 가장 정확하면서도 높은 신뢰구간에서 유력 발표를 낼 수 있었습니다.

문 후보의 '당선 확실'은 이보다 조금 늦은 22시 42분에 발표됐습니다. '유·확·당'의 기준으로는 당선 확률이 99%를 넘어설 때 선언됩니다. 통상 과거 대선에서 '당선 확실'은 ‘당선 유력’이 발표되고 20~30분 이내에 곧이어 선언됐습니다. 하지만 이번 대선에서는 37분이 소요됐습니다. 이것은 문 후보의 당선 확률이 99% 언저리에서 계속 위아래로 변동했기 때문입니다.

이 와중에 22시 7분경에는 문 후보의 당선 확률이 일시적으로 99%를 넘어서기도 했습니다. 하지만 이 수치를 '덥석' 받아들여서 '당선 확실'을 선언해 버리는 것은 무책임할 뿐만 아니라, 과학적으로도 잘못된 판단입니다. 실제로 문 후보의 당선 확률은 계속 등락을 거듭했고, 비록 일시적이지만 한때 94.4%까지 떨어지기도 했습니다. 따라서 당선 확률이 확실히 99%를 웃도는 것으로 판단될 때까지는 최대한 발표에 신중을 기할 수밖에 없었고, 다행히 그 판단은 정확한 것으로 드러났습니다.
유확당 선거정보시스_리사이징'당선 확률을 어떻게 계산하느냐’는 질문도 많았습니다. 표준편차와 분산, 복잡한 공식 같은 것들을 빼고 최대한 간명하게 설명하자면, 1위 후보의 당선 확률은, 2위나 3위 후보가 지금까지 뒤지고 있던 추세를 남은 개표에서 극적으로 뒤집어 대역전을 일으킬 확률을 100%에서 뺀 것이라고 할 수 있습니다.

따라서 1위 후보는 득표율이 비교적(35~40%) 낮더라도 1위를 유지하는 한 당선 확률은 매우 높게(80~90%) 나올 수 있습니다. 반면 2위 후보는 1위와의 득표율 차이가 꽤 벌어지는 추세가 이어지는 이상 당선 확률이 한 자리 수로 떨어지게 됩니다. 실제로 이번 대선에서도 홍준표 후보의 당선 확률은 21시22분 문재인 후보에게 역전을 허용한 이후 단 한 번도 두 자리 수로 올라서지 못했습니다.

마지막으로 최종 '당선 확정'은 통계적 분석이 개입되지 않습니다. 1위 후보의 득표수가 2위 후보의 득표수와 남은 개표수를 합친 것보다 많아지는 시점이기 때문에 명확합니다. 이번 대선에서 문재인 후보의 당선 확정 시점은 02시 37분, 당시 전국 평균 개표율은 86.9%였습니다. 선관위가 2~3시 사이에 당선자가 나올 것이라고 예측한 것이 들어맞았습니다.

선거에서 통계 분석은 가장 빨리 판세를 내다보는 눈입니다. 변종석 교수는 "개표율이 3%를 넘어선 시점이면 선거 윤곽은 거의 알 수 있다"고 말합니다. 100%를 기다리지 않고 3%만으로도 충분한 이유는 우리가 표본조사를 하는 이유와도 같습니다.

이번 대선에서 개표율이 3%를 넘긴 시점은 22시 2분. '유·확·당'은 그로부터 정확히 3분 뒤 '당선 유력'을 발표했습니다. 다음 선거에서 '유·확·당'은 기존 시군구별 통계에서 나아가 읍면동별 결과까지 심층 반영해 한층 더 정교한 예측 결과로 돌아올 것입니다. 재치 가득하고 멋진 바이폰들도 물론 함께입니다.