[장지연의 통계 칼럼] m&m 초콜릿에는 어떤 색이 가장 많을까

카이제곱검정

필자는 평소 m&m 초콜릿을 굉장히 즐겨 먹는다. 원래 초콜릿류 간식을 좋아하기도 하지만, 알록달록한 색깔의 초콜릿을 보기만 해도 즐거워지는 기분이기 때문이다. 그렇지만 어렸을 때는 겉에 코팅된 색소가 몸에 안 좋다며 어머니께서는 그 초콜릿을 잘 사 주시지 않았던 기억도 있다. 그래서 어느 정도 자란 후에야 자유롭게 사 먹을 수 있게 되었다. 그러던 도중 "m&m 골드 이벤트"를 진행한다는 내용을 인터넷에서 접하게 되었다. 형형색색의 m&m 초콜릿 중 골드색, 일명 "금색"으로 코팅된 초콜릿을 발견한 후, 홈페이지에서 전용 봉투를 출력해 그 금색 초콜릿 알을 담아 보내면 추첨을 통해 다양한 상품을 증정한다는 내용이었다.1 그 내용을 본 후, 평소에 통계에 관심이 있었던 나는 자연스레 확률적인 관점에서 이 이벤트를 바라보게 되었다. 그리고 동시에, 평소 m&m 초콜릿을 먹으면서 왠지 특정 색깔이 더 많이 나왔던 것 같은 기분이 들었다.

 

그때 문득 궁금해졌다. 과연 m&m의 초콜릿 분포는 과연 색깔마다 동일할까?

 

 

 

우선 궁금증을 해결하기 위해 구글에 검색해 보았다. 놀랍게도 m&m 회사인 마스(Mars. Inc)에서 이와 관련해 발표한 자료가 존재했다. 조사해 보니, 마스는 1990년대부터 자사의 홈페이지에 m&m 초콜릿의 색 분포 자료를 탑재해 놓았다고 한다. 수년간 이 자료는 조금씩 바뀌어왔지만, 가장 최근 자료인 2008년에는 아래와 같은 내용이었다고 한다.2 

 

 

이 자료에 따르면, m&m 초콜릿 한 봉지에는 파란색이 가장 많이, 그리고 빨간색과 갈색이 가장 적게  나타나야 한다. 이 자료를 보고 그동안 내가 m&m을 먹은 기억을 되살려 보았다. 왠지 내 기억 속에는 파란색이 적고, 오히려 빨간색이 가장 많이 나타났던 것 같았다. 과연 이 자료는 12년이 지난 지금까지도 유효한 자료일까? 2008년에는 정확한 자료였을까? 궁금증을 해결하기 위해 찾은 자료에서 더 큰 궁금증이 생겨 나는 곧장 마트에 달려가 m&m 열두 봉지를 구입했다. 

 

그렇지만 막상 내 눈앞에 놓인 m&m 초콜릿 봉지를 보니, 어떻게 내 궁금증을 해결해야 할지 막막했다. 그때, 예전에 통계학을 공부할 때 배웠던 "카이제곱검정"이 떠올랐다. 카이제곱검정에는 세 가지가 있는데, 그중 카이제곱 적합도 검정(Chi-square test for Goodness of Fit)은 어떤 것의 항목별로 관찰되는 빈도가 기대되는 빈도와 일치하는지를 확인하기 위한 가설 검정의 한 방법이다.3 따라서 m&m 초콜릿의 색깔별 분포가 마스에서 발표했던 색 분포(기대되는 빈도)와 일치하는지 알아보기 위해 이 가설 검정 방법을 사용할 수 있다. 

 

그런데 왜 이렇게 복잡해 보이는 방법을 따로 사용하는 것일까? 그 이유는 바로 "오차"에 있다. 이러한 통계적 추정 기법을 사용하지 않고 그냥 m&m 초콜릿 봉지를 개봉한 후 실제로 관찰된 색 분포를 마스가 발표한 것과 비교한다고 가정해 보자. 그 두 분포가 완벽히 일치하지 않는 이상 실제 색 분포는 기대했던 것과 조금의 오차를 보일 것이다. 이때 어느 정도의 오차범위까지를 "마스가 발표한 색 분포와 비슷하다"라는 결과를 도출하는 데 허용할 것인지가 불분명하다. 예를 들어 한 사람은 각 항목에서 2%p의 차이를 보이는 경우까지만 "두 분포가 비슷하다"라고 결론지을 수 있을 것이고, 다른 사람은 3%p까지의 오차를 허용할 수도 있다. 이렇듯 어떠한 통계적 판단에서는 일정한 기준점이 필요한데, 이 기준점이 객관적이지 않다면 같은 자료에 대해 사람마다 결론을 다르게 도출하고 해석할 수 있다는 단점이 있다. 카이제곱검정은 이러한 통계적 판단에 객관적 기준점을 부여한다. 

 

그럼 본격적으로 이 검정을 시작해 보자. 먼저, 두 가지 가설을 설정해야 한다. 바로 귀무가설(H0; null hypothesis)과 대립가설(Ha; alternative hypothesis)인데, 우리가 주로 "의심하는 것"이 대립가설이 되고 우리가 거짓임을 밝혀내고자 하는 가설이 귀무가설이 된다. 카이제곱검정과 같은 가설검정에서는 일반적으로 우리가 거짓임을 밝혀내고자 하는 것을 우선 참이라고 가정하고, 그것을 따라가다가 어떠한 모순을 발견하여 본래 추정이 틀렸다는 결론을 내리는 흐름으로 통계적 판단을 내리기 때문이다. 따라서 결론을 부정하여 가정에 모순이 있다는 것을 밝혀내는 수학적 증명 방법인 귀류법4과 유사하다고 할 수 있다. 지금 이 m&m의 색 분포와 관련된 검정에서는 "m&m의 색 분포는 마스가 발표한 것과 같은 것이다"가 귀무가설이 되고, 두 분포가 서로 일치하지 않을 것이라는 가설이 대립가설이 된다. 

 

 

그다음에는 주어진 자료가 카이제곱검정을 시행하기에 적절한지 확인하는 과정이 필요하다. 카이제곱검정을 시행할 때 만족시켜야 하는 몇 가지 조건이 있는데, 이를 충족시켜야 이 가설검정이 신뢰성을 얻을 수 있게 때문이다. 카이제곱검정에서 요구하는 조건은 다음과 같다. 

 

1. 색깔별 m&m의 기대빈도는 1 이상이다.

2. 전체 기대빈도의 80% 이상이 각각 5 이상이다. 

 

이 조건에서 "기대빈도"는 전체 빈도수에 기대비율을 곱한 값이다. 쉽게 말해서 m&m 한 봉지에 초콜릿이 총 50개 들어 있는데, 마스에서 발표한 빨간색의 비율이 20%라면 이 봉지의 빨간색 초콜릿의 기대빈도는 50*0.2=10이 되는 것이다. 우선 각 봉지에 들어 있는 초콜릿의 총 개수를 세어 보니 아래와 같았다. 

 

전반적으로 46개 안팎의 일정한 수의 초콜릿이 담겨 있었음을 확인할 수 있다. 이때 각 봉지의 색깔별 기대빈도를 계산해 보면 다음과 같다. 

 

이때 모든 항목의 기대빈도는 5를 초과하므로, 이 자료는 앞서 언급된 두 가지 조건을 모두 만족시킨다. 이 조건을 만족시키는 것이 중요한 이유는, 너무 작은 크기의 표본을 선택해 기대빈도가 너무 작게 나온다면 작은 오차가 전체 데이터에 미치는 영향이 훨씬 커지기 때문이다. 만약 한 봉지에 다섯 알씩 들어 있는 m&m 봉지를 사서 실험한다고 가정해 보자. 그렇다면 그 봉지에는 아예 나타나지 않는 색깔이 있을 수도 있으므로 오차가 매우 커질 것이다. 그런데 이 실험에서는 한 봉지에 약 46개의 초콜릿이 들어 있는 표본을 선택했으므로 위 조건을 만족시킨다. 그렇다면 이제 본격적으로 통계적 계산을 해나갈 수 있다. 

 

먼저, 열두 봉지의 m&m 초콜릿을 색깔별로 분류해 보았다. 

 

그리고 이 자료를 표에 옮겼더니 다음과 같았다. 

 

놀랍게도, 가장 많이 나온 색깔 중 하나가 갈색이었다. 2008년 마스가 발표한 자료와는 상반되는 내용이었다. 그렇지만 여기서 끝내지 않고, 정확하고 공정한 통계적 판단을 내리기 위해 카이제곱값(X2)이라는 것을 계산해야 한다. 이것은 쉽게 말해서 각 색깔에서 관찰된 빈도가 기대빈도와 얼마나 큰 차이를 보이는지를 보여 주는 척도이고, 다음 식을 이용해 계산한다.3

이 식을 이용해 색깔별 통계치(관찰빈도와 기대빈도의 차이의 제곱을 기대빈도로 나눈 값)를 계산하고 그래프로 나타내면 다음과 같다. 

 

처음 색깔별로 초콜릿을 분류하고 나서도 알 수 있었듯이, 갈색이 예상보다 훨씬 많은 숫자로 나타났음을 쉽게 볼 수 있다. 그래프에서 파란색이 실제로 나타난 빈도이고, 빨간색이 우리가 마스의 자료로부터 기대했던 빈도인데 갈색 항목에서 파란색 막대가 빨간색 막대보다 길게 나타났기 때문이다. 반면, 파란색은 예상된 빈도보다 훨씬 적게 나타났음을 알 수 있다. 동시에, 노란색 막대는 관찰빈도와 기대빈도의 차이가 전체 데이터에 영향을 미친 정도를 시각적으로 보여 준다. 노란색 막대의 길이를 도출해 낸 색의 분자는 관찰빈도와 기대빈도의 차이의 제곱이기 때문에, 이 두 빈도의 차이가 커질수록 노란색 막대의 길이가 길어지게 된다. 이때, 빨간색은 파란 막대와 빨간 막대의 길이가 비슷하므로, 즉 관찰빈도와 기대빈도가 비슷하므로 노란 막대가 너무 짧아 거의 보이지 않는다는 것을 알 수 있다. 반대로 갈색에서는 두 빈도의 차이가 크므로 노란색 막대의 길이가 여섯 색깔 중 가장 길다. 그런데 비슷한 차이를 보이는 파란색의 경우, 갈색에 비해 노란 막대의 길이가 짧은 이유는 기대빈도가 갈색보다 더 크기 때문이다. 즉, 같은 차이를 보이더라도 기대빈도의 크기가 더 크다면 최종 데이터에 미치는 오차율은 궁극적으로 줄어들게 된다. 

 

이제 몇 가지 계산만 더 하면 된다. 우선, 앞서 구한 노란 막대의 길이를 모두 더하여 위에서 언급한 카이제곱값(X2)을 구해야 한다. 위 자료로부터 계산했을 때 X2=36.865가 나온다. 그리고 이 카이제곱검정에서는 "자유도(Degree of Freedom)"라는 개념 또한 필요하다. 통계학에서 자유도의 정의는 어떤 통계치를 계산하기 위해 독립적으로 취할 수 있는 값들의 수이다.5 예를 들어서 평균값이 20이 나오도록 다섯 개의 자료가 필요하다면, 네 개의 자료는 어떠한 값을 취해도 되지만 마지막 한 가지의 자료는 최종 평균이 20으로 도출되도록 하는 값을 취해야만 한다. 따라서 이 카이제곱검정에서는 총 항목의 개수에서 1을 뺀 값이 자유도가 된다. 여기에서는 총 색깔의 종류가 여섯 가지이므로 자유도는 5이다. 

 

마지막으로, P-value라는 것을 계산하면 통계적 판단을 내릴 수 있다. P-value라는 것은 귀무가설이 참일 때, 우리가 얻은 자료보다 더 극단적인 자료를 얻을 확률을 의미한다. 쉬운 예로, 과자 회사 A에서 생산하는 제품 X 한 봉지에 설탕이 30g 들어 있다고 주장한다고 가정해 보자. 이때, 직접 측정했더니 한 봉지단 평균 45g이 나왔다고 하자. 만약 과자 회사 A의 주장이 사실이라면, 어느 정도의 오차를 감안하더라도 우리가 이렇게 15g이라는 큰 차이를 얻게 될 가능성은 작을 것이다. 만약 A사의 말대로 제품 X 한 봉지에 설탕이 30g 들어 있다면, 우리도 실험했을 때 높은 확률로 30g이라는 결과가 나와야 할 것이기 때문이다. 

 

즉, 이 m&m에 대한 가설검정에서는 자유도가 5인 카이제곱분포에서 카이제곱값이 36.865 이상일 확률을 구해야 한다. 관찰빈도와 기대빈도의 차이가 커질수록 이 카이제곱값도 함께 커지기 때문이다. 이를 시각적으로 도식화하면 아래와 같다. 

 

 

공학용 계산기로 이 확률을 구해보면 X2Cdf(36.865, 99, 5)=6.375*10-7 이 나온다. 이 값은 0에 매우 가까운 값으로, 이 확률의 크기를 판정하는 데 일반적으로 쓰이는 알파값 0.05보다도 훨씬 작은 값이다. 즉, 마스의 주장이 사실일 때 우리가 지금 얻은 자료보다 더 많은 차이를 보이는 자료를 얻을 확률은 거의 0이다. 이 확률은 거의 불가능에 가까우므로, 우리가 처음 사실이라고 가정했던 귀무가설에 모순이 있다고 판정할 수 있다. 이때 이 귀무가설을 "기각"한다고 하며, 우리는 마스가 주장하는 m&m의 색 분포와 실제 색 분포가 차이를 보인다는 주장을 뒷받침하는 데 충분한 근거가 있다고 할 수 있다. 쉽게 말해서, 마스의 주장은 적어도 내가 구입한 m&m 초콜릿을 근거로 하면 사실이 아니다. 12년 전에 발표된 자료라서, 혹은 미국이 아닌 한국에서 구입한 초콜릿이라서 이러한 결과가 나온 것일 수 있다. 

 

통계는 거창한 것이 아니다. 이렇게 일상 속에서 생긴 간단한 궁금증을 해결하고 주변 현상을 분석하는 데 좋은 도구로 쓰일 수 있다. 비록 숫자 때문에 통계가 처음에는 어려워 보일지라도, 조금만 통계에 더 관심을 가지고 들여다보면 생각보다 유용하고 재미있는 학문이라는 것을 쉽게 알 수 있다. 앞으로 사소해 보이는 궁금증이라도 통계학적으로 접근해서 그 궁금증을 해결해 보는 것은 어떨까. 오늘 밤에 먹을 m&m은 왠지 평소보다 더 맛있을 것 같다. 

 

 

『참고 및 인용자료 출처』

1. 참고자료: m&m 코리아 홈페이지 https://www.mmsgold.co.kr/pc.php

2. 참고자료: 해외 블로그 https://www.sensationalcolor.com/mms-color-mix/

3. 참고자료: Martin Sternstein, Ph.D.(2017). AP Statistics. 뉴욕: Barron's Educational Series, Inc.

4. 인용자료: 네이버 지식백과 https://terms.naver.com/entry.nhn?docId=1068430&cid=40942&categoryId=31530

5. 인용자료: 네이버 지식백과 https://terms.naver.com/entry.nhn?docId=5702215&cid=64656&categoryId=64656

 

이 기사 친구들에게 공유하기