유의확률을 나타내는 p-value는 그룹 간 차이나 관계 등이 우연에 의한 것인지 또는 연구 중인 변수로 인한 것인지를 나타내기 위해 널리 사용됩니다. 관례로 p-value가 0.05 미만이면 결과가 통계적으로 “유의하다(significant)”고 간주합니다. 몇 달 전 일부 학자들은 거짓 양성(false positive)이 보고되는 것을 막기 위해 임곗값(threshold)을 0.005로 낮춰야 한다는 의견을 표명했습니다. 이들의 제안으로 과학계에는 여러 토론과 논쟁이 촉발되었습니다. 이러한 제안에 대한 반응으로 최근 일부 학자들은 자신의 p-value 사용 방식을 정당화하도록 학자들에게 위임하는 것이 p-value의 오용을 다루는 더 좋은 방법이라고 밝혔습니다.
사실 p-value 허용 기준에 오용과 잘못된 해석의 여지가 많다는 것은 널리 논의되고 있는 문제입니다. 2017년 7월 72명의 저명한 연구자는 PsyArXiv 프리프린트 서버에 사회과학 및 의생명과학에서 p-value 임곗값을 0.005로 낮춰야 한다고 주장하는 원고를 올렸습니다. 이 논문의 주 저자 중 한 명인 로스앤젤레스 서던캘리포니아대학교(University of Southern California)의 경제학자 Daniel Benjamin 교수는 “0.05에서 0.005 사이의 P value가 나오는 주장은 입증된 지식(established knowledge)보다는 단지 “시사하는 근거(suggestive evidence)”로 다루어져야 한다”고 말했습니다.
9월 18일 한 연구자 그룹은 이러한 아이디어에 반박하는 답변을 올렸습니다. 이 반론의 주 저자인 네덜란드 에인트호번 공과대학교(Eindhoven University of Technology)의 실험 심리학자 Daniel Lakens 교수는 엄격한 p-value 임곗값을 적용하면 거짓 음성(false negative) 수의 증가와 같은 새로운 문제가 발생할 수 있다고 주장합니다. 이에 따라 하나의 문제에 대한 해결책이 새로운 문제의 근원이 될 수 있는 것입니다. Lakens 교수는 또한 저널에서 승인될 가능성이 작은 부정적 결과는 출판되지 않은 상태로 남아있을 수 있다는 것을 의미하는 “파일 서랍(file drawer)” 문제가 잠재적으로 발생할 수 있다고 강조하며 “어떤 정책을 시행하기에 앞서 의도치 않은 부정적 결과가 초래되지 않는지 분명히 확인해야 한다”고 말했습니다. Lakens 교수는 연구자가 자료수집을 시작하기 전 등록된 보고서에 자신이 선택한 p-value 임곗값과 이러한 선택의 타당한 이유를 함께 기재해야 한다고 제안합니다. 그의 말에 따르면 이것은 연구자의 책임감 있는 p-value 사용으로 이어질 것이며 또한 사용 분석도 쉬워질 것입니다.
재현 불가능한 결과 문제는 학계가 직면한 가장 큰 문제 중 하나이며 따라서 p-value의 책임감 있는 사용은 더욱 중요합니다. 일부 저널은 반복할 수 없음을 이유로 p-value를 금지하기도 했습니다. 학자들 사이에는 p-value가 사용되어야 하는 방식에 대해 견해가 뚜렷이 양분된 것으로 보입니다. 이 문제에 관하여 학자들이 합의된 결정에 도달할 수 있을지는 앞으로 지켜볼 일입니다.
여러분의 연구도 p-value 사용과 관련이 있나요? 유의성 임곗값을 줄이는 것에 대해 어떻게 생각하시나요? 이러한 변경이 여러분의 연구에도 영향을 미치나요? 만약 그렇다면 어떻게 영향을 미치나요? 아래 코멘트를 남겨주세요.
추가로 읽어볼 기사
내 연구가 유의미할까? p-value(유의 확률)에 의존해서는 안 되는 이유
참고자료
Big names in statistics want to shake up much-maligned P value