표준편차: 연구에서의 정의와 용도
연구자로서 방대한 양의 데이터를 요약할 때 요약 통계 또는 기술 통계를 사용합니다. 그리고, 그 가운데 가장 잘 알려진 것은 산술 평균 또는 평균입니다. 그러나, 표준 편차 없이 평균 자체는 "무의미"합니다. 그럼, 오늘은 이 중요한 통계에 대해 이해해 보도록 하겠습니다.
표준편차란 무엇인가?
표준편차(Standard deviation, SD)는 분산의 척도입니다. 이는 값이 평균에서 넓게 분산된 정도를 의미합니다.
표준편차가 작으면 값의 분포도가 작고, 평균을 중심으로 매우 좁은 범위에 속합니다. 표준편차가 크면, 데이터에 분포도가 크다는 것을 의미합니다.
표준편차 도출 방법: 계산 및 공식
아래 단계를 따르시면, 계산이 매우 간단합니다.
1단계: 데이터 수집(예제: 수축기 혈압 측정값)
2단계: 평균을 계산합니다. 이를 위해 모든 데이터 값을 합산하여, 총 데이터 포인트 수로 나눕니다.
3단계: 각 데이터 포인트에서 평균을 차감하여 편차를 구합니다.
4단계: (음수 값을 제거하도록) 각 편차를 제곱합니다.
5단계: 제곱 편차의 평균을 계산합니다. 이를 분산이라 합니다.
6단계: 분산의 제곱근을 구합니다. 이것이 표준 편차입니다.
표준편차 보고 방법: 기호 또는 약어
표준편차는 때때로 ±기호(플러스 또는 마이너스)를 사용하여 표시되지만, 평균의 양쪽 분포도를 의미하므로, 반드시 필요하지는 않습니다. 이는 또한 이 숫자가 평균의 표준편차인지 표준오차인지를 혼돈하게 만들 수도 있습니다. (아래에서 상세 설명).
따라서, 표준편차를 보고하는 이상적인 형식은 다음과 같습니다.
평균 = 13.5 (SD = 1.3)
물론, 저널이 정한 스타일 가이드("SD" vs "sd" vs "sd" 등)에 준수해야 합니다. 그리고 만약 두 개 이상의 평균을 보고한다면, 각 평균은 그에 상응하는 표준편차 값을 갖고 있어야 함을 상기하시기 바랍니다.
평균의 표준편차 vs 표준오차
연구자들은 종종 표준편차를 평균의 표준오차(Standard error of the mean, SEM)와 혼동하곤 합니다. 표준오차는 정밀도의 척도입니다. 이는 표본 평균이 모집단 평균에서의 근접도를 말합니다. 표준오차는 데이터의 분포도를 알려주지 않습니다. 표준편차와 표준오차의 차이점에 대한 리 외.( 2015)의 글을 참고 바랍니다.
일반적으로 표준오차의 값이 표준편차의 값보다 작아서, 표준오차가 표준편차의 대체 수단으로 오용되는 경우가 많습니다.
이러한 이유로 인해 많은 생물 통계학자(예시: 바르데&바르데 2012 ; 가그& 모한티 2012 ; 고 외 2014 )와 저널은 저자가 데이터를 설명할 때 평균과 함께 표준오차를 보고하도록 권장하지 않습니다. 네이처 커뮤니케이션즈(Nature Communications)와 산부인과학(Obstetrics & Gynecology Science) 같은 저널에서는 측정값이 표준편차인지 표준오차인지를 명확하게 식별하도록 요구합니다.
표준편차 vs 분산
앞서 보았듯이 표준편차를 계산 단계의 하나로 분산(5단계)을 계산합니다. 분산과 표준편차는 동일한 것이 아닙니다. 표준편차는 데이터 세트의 분산 제곱근입니다.
표준편차와 분산은 그 목적도 상이합니다.
표준편차: 데이터 포인트가 평균에서 분포도를 정량화합니다.
분산: 데이터 세트의 숫자 간에 분포도를 측정합니다.
이 가이드가 표준 편차와 연구에서 표준 편차의 중요성을 이해하시는 데 도움이 되었기를 바랍니다. 본 기사에서는 표준 편차의 정의, 계산 및 보고 방법을 요약했습니다.