[장지연의 통계 칼럼] 성적표 속 통계 용어 톺아보기

  

어느덧 수능이 10일도 채 남지 않았다. 수능이 끝나면 수험생은 성적표를 받게 되고, 이 성적표에는 등급뿐만 아니라 백분위와 표준점수가 함께 표시된다. 이 두 가지 항목은 같은 등급 내에서 우위를 가려야 하는 정시 전형에서 특히 중요하게 여겨진다. 이와 비교해 내신 성적표에는 등급과 함께 전체 평균과 표준편차가 함께 제공된다. 도대체 성적표 속에 이렇게 많은 통계 용어는 무엇을 의미하며, 입시에서는 어떤 의미를 가질까? 

 

 

우선 평균과 표준편차의 개념을 이해할 필요가 있다. 평균은 많은 사람이 익숙해하는 개념으로, 일반적으로 산술평균을 의미하며 전체 값의 합을 값의 개수로 나눈 결과이다. 즉, 평균 점수가 높을수록 응시생이 전체적으로 시험에서 높은 점수를 받았음을 뜻하기 때문에 시험이 상대적으로 쉬웠다고 해석할 수 있다. 이러한 점 때문에 평균은 '중간'이라는 인식이 강하다. 아무리 못해도 중간이라도 가자는 목표를 세웠을 때, 그 목표는 보통 평균이 된다는 점에서도 알 수 있다. 그러나 사실 평균을 '중간'이라고 하기에는 다소 무리가 있다. 

 

'중간'에 더 부합하는 개념인 '중간값'(median)이 있다. 중간값이란 말 그대로 가장 높은 값부터 가장 낮은 값까지 차례대로 서열화시켰을 때, 중간에 위치한 값을 의미한다. 그런데 이 중간값과 평균은 전체 분포의 양상에 따라 한 쪽이 더 클 수 있다. 양쪽으로 대칭인 분포에서는 평균과 중간값이 일치하지만, 한 쪽으로 치우친 분포에서는 일치하지 않게 된다. 편향된 분포는 아래 그림과 같이 크게 두 가지로 나눌 수 있다. 

 

 

좌편향 분포는 왼쪽으로, 우편향 분포는 오른쪽으로 꼬리가 길게 늘어진 모양이다. 이것을 시험 점수의 분포라고 생각해 본다면, 좌편향 분포는 상위권 학생이 많은 분포, 우편향 분포는 하위권 학생이 많은 분포가 된다. 그런데 평균은 극단적인 값, 즉 중심으로부터 많이 멀어진 값의 영향을 많이 받기 때문에 분포에서 꼬리의 방향으로 치우치게 된다. 그러나 중간값은 극단적인 값으로부터 받는 영향이 비교적 적으므로 치우치는 정도가 다르다. 따라서 좌편향 분포에서는 평균이 중간값보다 작게, 우편향 분포에서는 평균이 중간값보다 크게 나타난다. 

 

이것을 바탕으로 점수가 평균보다 낮아도 4등급 이상을 받는 상황을 설명할 수 있다. 1에서 9까지의 총 아홉 개의 등급으로 나뉘어 평가하는 등급제에서 가운데 등급은 5등급이다. 따라서 보통 평균 점수를 받으면 5등급을 받을 것이라고 생각하기 쉽지만, 늘 그렇지만은 않다. 등급제에서는 각 등급에 특정 비율만큼의 인원이 들어가기 때문에 중간값을 받은 학생은 가운데 등급인 5등급을 받게 된다. 즉, 중간값을 5등급이라고 생각해 본다면 전체 학생의 성적이 우편향 분포 양상을 띨 때 중간값과 평균 사이의 점수를 받은 학생은 평균보다 낮은 점수임에도 5등급보다 높은 등급을 받는 것이 가능하다. 반대로 좌편향 분포의 경우 평균보다 높은 점수를 받아도 5등급보다 낮은 등급을 받게 될 수 있다. 물론 이 두 가지 분포 말고도 다양한 분포에서 나타날 수 있는 현상이지만, 대표적인 이 두 가지 분포로 입시를 보다 정확하게 이해할 수 있다. 

 

내신 성적표에서 평균과 함께 표기되는 표준편차는 많은 사람들이 생소하게 느낄 수 있는 개념인데, 쉽게 말해서 값이 얼마나 서로 떨어져 있는지를 나타내는 척도이다. 따라서 내신 성적표에서의 표준편차가 크면 클수록 학생 간의 점수 격차가 전체적으로 크다는 것을 의미한다. 

 

 

평균과 표준편차라는 이 두 가지 통계치를 이용해 표준점수를 계산할 수 있다. 통계학에서 표준점수(z-score)의 원래 정의는 "평균으로부터 몇 개의 표준편차만큼 떨어져 있는지"이다. 표준점수를 계산하는 식은 아래와 같기 때문이다. 

 

 

이 식이 잘 와닿지 않는다면 이렇게 생각해 보자. 평균 60개의 사과를 가지고 있는 A마을의 주민인 당신은 90개의 사과를 가지고 있다. 사과 15개가 한 박스일 때, 당신은 평균보다 사과를 몇 박스 더 가지고 있는가? 바로 두 박스이다. 당신은 평균보다 90-60=30개의 사과를 더 가지고 있고, 사과 30개는 30/15=2박스이기 때문이다. 이처럼 위 식의 분자 부분은 당신의 점수가 평균으로부터 얼마나 떨어져 있는지를 계산해 주고, 이를 표준편차만큼 나눈다는 것은 당신의 점수가 평균으로부터 '몇 개의 표준편차만큼' 떨어져 있는지를 의미한다. 따라서 당신의 점수가 평균보다 높다면 이 값은 양수, 평균보다 낮다면 음수, 딱 평균이라면 0이 된다. 또한, 표준점수가 크면 클수록 시험을 잘 봤다고 해석할 수 있다. 표준점수를 계산하는 식에 평균과 표준편차가 반영되기 때문에 자동적으로 시험 난이도를 반영하게 되므로 표준점수는 곧 시험 난이도에 따른 당신의 상대적 위치를 알려 주기 때문이다. 이렇게 표준점수를 계산하면 서로 다른 난이도인 시험의 결과를 쉽게 비교할 수 있다는 장점이 있다. 예를 들어 국어 시험의 평균이 65점, 표준편차가 10점이고 수학 시험의 평균이 40점, 표준편차가 15점일 때 국어와 수학 성적이 각각 75점과 70점이라면, 국어의 표준점수는 1, 수학의 표준점수는 2가 된다. 이때 원점수는 국어가 더 높지만, 표준점수는 수학이 더 높으므로 사실상 수학 시험을 더 잘 봤다고 해석하는 것이 옳다. 이러한 현상이 발생하는 이유 중 하나는 국어 평균이 높았기 때문이다. 즉, 상대적으로 쉬워서 평균이 높게 나온 국어 점수가 더 높았기 때문에 국어의 표준점수가 수학보다 더 크다고 단정지을 수 없는 것이다. 덧붙여서 말하자면, 수능에서는 이러한 표준점수에 보정값을 넣어서 평균과 일치하는 점수를 받으면 표준점수가 0이 아닌 100(국어, 수학 영역) 혹은 50(탐구 영역)이 나오도록 한다. 이는 평균보다 낮은 점수를 받았을 때 표준점수가 음수로 나오는 것을 막기 위함이다. 

 

이와 비슷한 개념으로는 '백분위'가 있다. 백분위는 자신보다 아래에 위치한 사람의 비율을 나타내는 수치이다. 예를 들어 과학 영역에서의 백분위가 97이라면 본인 아래에 97%의 사람이 있다는 것을 의미한다. 혹은 본인이 상위 3%에 있다고 해석해도 무방하다. 이는 응시생 중 자신의 상대적 위치를 나타낸다는 점에서 표준점수와 유사한 것 같지만, 사실은 조금 다른 의미를 가진다. 백분위는 쉽게 말해서 모든 응시생을 1등부터 꼴등까지 서열화시킨 후 본인이 상위 몇 퍼센트에 있는지를 나타냈다면, 표준점수는 시험의 난이도 대비 본인의 성취도를 알 수 있는 지표이기 때문이다. 따라서 표준점수가 같더라도 백분위가 다를 수 있다. 

 

아래 그림의 두 분포를 보자. 왼쪽의 좌편향 분포는 학생의 국어 점수의 분포를, 우편향 분포는 수학 점수의 분포를 나타낸다고 생각해 보자. 이때 두 분포는 완벽한 좌우 대칭을 이루고, 학생 J의 국어와 수학 점수는 각각의 평균으로부터 같은 거리(같은 점수)만큼 떨어져 있다고 가정한다. 

 

 

두 분포는 좌우 대칭이므로 표준편차가 같고, 각 과목에서의 점수는 평균으로부터 같은 점수만큼의 차이를 가지므로 이 학생은 국어와 수학의 표준점수는 같을 것이다. 그러나 이 학생보다 시험을 잘 본 학생의 비율을 노란색으로 표시했을 때 수학보다 국어에서 훨씬 본인 위에 위치한 사람이 많다는 것을 알 수 있다. 백분위는 전체 응시생 중 본인의 아래에 위치한 학생의 비율을 나타므로, 이 학생의 백분위는 국어보다 수학에서 훨씬 높을 것이다. 물론 이 비유가 다소 극단적일 수 있겠으나, 이러한 좌 · 우 편향 분포를 통해 표준점수가 같더라도 백분위가 다른 경우를 이해할 수 있다. 

 

성적표 속 통계적 수치는 입시에서 매우 중요하게 작용하는 요소이지만, 생각보다 각 수치의 의미를 제대로 모르고 있는 학생이 많다. 조금만 더 통계에 관심을 가진다면 이러한 용어를 바탕으로 입시 상황을 더 잘 이해할 수 있고, 이는 궁극적으로 본인의 입시 전략을 더 효과적으로 세울 수 있는 발판이 된다. 성적표로부터 얻을 수 있는 정보는 생각보다 많다. 앞으로 본인의 성적표에서 점수랑 등급만 보는 대신, 다른 항목도 한 번씩 눈길을 주는 것은 어떨까? 성적표를 보는 것이 조금 재미있어질지도 모른다. 

 

 

 

 

이 기사 친구들에게 공유하기