정보와 의견의 끊임없이 가득 찬 세상에서 신뢰와 진실성은 점점 더 찾기 어려워지고 있습니다. 연구자로서 우리는 진실에 전념하고, 정보를 생생하고 적절하게 표현하기 위해 노력해야 합니다. 약물 연구 결과에 대한 잘못된 해석은 그 약물을 섭취한 누군가에게 위험한 상황을 야기시킬 수도 있습니다. 이러한 예는 극단적일 수 있지만, 분명 이러한 가능성은 있습니다1.
좀 더 현실적인 차원에서 연구 결과에 대한 잘못된 해석은 시간, 돈, 인적 자원의 낭비를 초래하고 과학 및 연구자에 대한 대중의 신뢰를 약화시킵니다. 이는 연구자의 경력에도 전혀 도움이 되지 않습니다. 통계의 적절한 사용은 어려운 일이지만, 연구자로서 두려운 일이 되어서는 안 됩니다. 이 글에서는 몇 가지 예시를 통해, 여러분이 연구 결과 보고 및 분석을 더 정확하고 신중하게 할 수 있도록 도와 드리겠습니다.
연구자들이 통계에서 실수를 범하는 이유
통계는 많은 사람들이 두려움을 가지는 분야입니다. 수학을 싫어하는 사람들은 숫자에 관련한 모든 것에 겁을 먹고, 수학을 좋아하는 사람들은 통계의 부확실한 면에 지치기도 합니다. 통계는 많은 숫자들을 담고 있지만, 대수학이나 미적분처럼 정확한 답안을 제시하지는 않습니다.
통계에 대한 두려움은 연구자들이 연구 데이터 및 결과를 분석하거나 보고할 때 오류를 만들게 되는 주요 원인 중 하나입니다. 이런 두려움으로 연구자들은 결국 통계에 대한 지식을 더 쌓거나 교육을 받는 것을 멀리하게 됩니다. 그리고 이것은 연구 결과에 대한 정확한 주의를 기울이지 않는 엉성한 결과를 만들어 내기도 합니다. 물론, 숫자를 두려워하는 것만이 연구자들이 통계적 오류를 범하게 되는 이유는 아닙니다. 다른 원인으로는 다음과 같은 것들이 있습니다.
- 공식적인 훈련의 부족 - 일부 연구자들은 통계에 대한 충분한 교육을 받지 않았을 수 있습니다. 하지만, 현재 인터넷의 수많은 강의와 웹사이트에서 자가 학습을 통해 이러한 문제를 극복하는 것이 가능합니다.
- 지원 부족 – 본인이 통계에 자신 있지 않은 경우, 검토를 할 사람을 찾아야 합니다. 주변에 이러한 지원이 없을 경우 점검이 어려울 수 있습니다.
- 자원 부족 – 시간이나 자금이 제한된 연구자들의 경우, 데이터 수집 및 분석에 충분한 시간과 주의를 기울이기 힘들어 오류가 발생할 수 있습니다. 예를 들어, 시간이 부족하면 검증 과정이 수행되지 않을 수 있고, 자금이 부족한 경우, 프로젝트 수행을 위한 인력이 부족할 수 있습니다.
연구자들이 피할 수 있는 8가지 통계적 오류
통계적 오류는 데이터 수집, 분석 및 보고 과정을 포함하여 연구 프로세스의 다양한 단계에서 발생할 수 있습니다. 다음은 통계에 어려움을 겪는 연구자들이 부정확한 보고를 피하기 위해 알고 있어야 하는 몇 가지 근본적인 오류입니다.
깨끗한 데이터를 사용하지 않음
이 오류는 직접 실제 데이터를 보지 않는 이상, 독자들에게 명확하지 않을 수 있습니다. 이러한 이유 때문에 많은 저널에서 데이터 공개를 요구하기도 합니다. 이상값(outlier)과 결측값(missing value)을 포함하고 있는 데이터 값은 분석하기 전에 주의 깊게 처리되어야 합니다. 만일 신입생의 평균 키에 대해 보고하는데 데이터의 1/4이 비어 있다거나, 여러 학생이 농구팀에 소속되어 있다면, 평균 키 보고 값은 정확하지 않을 것입니다. 이러한 문제의 단순한 해결책은 데이터를 잘 파악하는 것입니다. 산포도(scatter plot), 히스토그램 등 여러분의 데이터를 잘 표현하는 데에 도움이 되는 그래프를 생성합니다.
적합하지 않은 샘플링 방법 적용
이 문제는 설문 조사 데이터와 관련된 연구에서 자주 나타납니다. 수집된 데이터가 대상 집단 전체를 나타낸다고 보는 것입니다. 그러나 설문 조사로 진정한 대표 샘플을 얻기는 매우 어렵습니다. 예를 들어, 필요한 설문 참가자 수를 얻기 위해 연구자들은 편리한 방법을 선택하곤 합니다. 그러나 연구 목적과 범위를 고려하지 않은 일반적인 방법을 사용하면 데이터 결과가 왜곡될 수 있습니다. 데이터 수집 시에는 여러분이 관심 있는 목표모집단과 실제 샘플링을 하는 조사집단에 대해 신중하게 생각해야 합니다.
비논리적인 상관관계 보고
실제 관련이 없는 변수들 사이에서 유의미한 상관관계를 찾는 것에 주의해야 합니다. 예를 들어 박스오피스 수입과 미국 석사 학위 수여 숫자에서 강한 유사성2이 발견되었다고 하더라도, 이 변수들은 명백하게 밀접한 관련이 없습니다.
상관관계가 인관계를 내포하고 있다는 가정
변수들 간에 상당히 유의미한 상관관계가 있다는 증거는 한 변수의 변화가 다른 변수의 변화를 유발한다는 증거는 아닙니다. 흔한 예시로 상어의 공격과 아이스크림 소비 증가 사이에 강한 상관관계가 있습니다3. 그러나 이것이 아이스크림을 먹음으로써 상어 공격이 발생한다는 것을 의미할까요? 상식적으로 이 둘은 제3의 요인, 즉 여름이라는 계절 변화에서 발생한다고 볼 수 있을 것입니다.
잘못된 분석 방법 사용
통계에 대한 충분한 지식이 없다면, 여러분은 아마 다른 도움 없이는 데이터 처리에서 복잡한 분석 방법을 사용하지 않을 것입니다. 통계적 지식에 몰입될 필요는 없습니다. 그러나 사용하고 있는 방법에 대한 이해는 필요합니다. 예를 들어, 범주형 변수(categorical variables)를 단순 선형 회귀(simple linear regression)분석에 이용할 수 있습니까? t 검정(t-test)이 여러 그룹 간에 유의미한 차이를 찾을 수 있습니까? 분석 방법에 대해 읽고 이해하는 것은 시간이 걸리지만, 약간의 관련 읽기를 수행하면, 당황스러운 실수를 피할 수 있습니다.
분석 가정을 확인하지 않음
이는 첫 번째 오류와 관련이 있습니다. 모든 분석 방법은 가공될 데이터에 대한 가정을 기반으로 하고 있습니다. 예를 들어, 많은 방법들은 기본 데이터가 정규 분포를 따른다는 가정을 기반으로 합니다. 만약 데이터가 다른 분포도를 갖고 있다면, 결과는 정확하지 않을 수 있습니다. 해결책은 관련 변수와 데이터를 완전히 이해했는지 확인하는 것입니다. 여기에서도 그래프가 큰 도움이 될 것입니다.
과장된 결과 보고
통계를 어려워하는 연구자들이 자주 범하는 실수는 얻은 결과를 올바르게 해석하지 않고, 종종 결과를 과장하는 것입니다. 예를 들면, 특정한 조건에서 얻은 사실을 어떤 것에 대한 증명이라고 보고하는 것입니다. 통계는 아주 정확하고 보수적인 언어입니다. 만일 여러분이 얻은 결과가 귀무가설((null hypothesis)을 기각할 수 없음을 시사한다고 하여도, 이것이 증명되었다는 의미는 아닙니다. 이는 단지 반증될 수 없다는 것을 의미할 뿐이고, 결과는 그 가설을 뒷받침하는 증거만 제공할 수 있습니다. 이는 통계에 익숙한 연구자들조차 혼란을 겪을 수 있는 부분입니다.
선택적 데이터 선택 및 결과 분석
어떤 결과가 필요한지 이미 알고 있는 연구를 수행하는 것은 결코 좋은 생각이 아닙니다. 이로 인해 데이터를 조작하거나, 원하는 결과를 생성할 실험 방법을 찾게 만들 수 있습니다. 또 다른 비윤리적 접근 방식은 데이터를 얻고 조사한 후 가설을 개발하는 것입니다4.
이러한 오류의 대부분은 상식을 적용하고 주의를 기울이면 피할 수 있습니다. 그러나 실제 연구에서는 더 복잡한 실수들이 발생합니다. 항상 그렇듯이 가장 좋은 방법은 통계 경험과 지식이 많은 동료 및 주변인들로부터 조언을 받는 것입니다.
참고 문헌
1. Brown AW, Kaiser KA, and Allison DB. Issues with data and analyses: Errors, underlying themes, and potential solutions. PNAS. 2018, 115, 2563–70. https://doi.org/10.1073/pnas.1708279115
2. Statology. 5 examples of spurious correlation in real life. https://www.statology.org/spurious-correlation-examples/ [Accessed 29 July 2022]
3. Statology. Correlation does not imply causation: 5 real-world examples. https://www.statology.org/correlation-does-not-imply-causation-examples/ [Accessed 29 July 2022]
4. Gray K. Statistical mistakes even scientists make. KDnuggets. https://www.kdnuggets.com/2017/10/statistical-mistakes-even-scientists-make.html [Accessed 29 July 2022]