p-value(유의확률)란 귀무가설의 검정이 이루어지는 토대이며, 통계적 타당성의 ‘황금표준’이라고 불립니다. 하지만 귀무가설검정에 있어 p-value와 <0.05라는 한계를 강력한 지표로 사용하는 데 회의적인 전문가들이 많습니다. 조작이 쉽고, 빈약한 데이터로 이루어진 연구를 뒷받침하는 데 쓰이기도 쉽다는 이유에서입니다. p-value에 반대하는 사람들은 또 p-value가 ‘불안정한’, 즉 반복 가능성이 낮다는 점을 지적합니다.
논쟁의 여지는 있지만, p-value는 수많은 연구의 일부를 구성합니다. <기초/응용 사회심리학 저널 (BASP: Basic and Applied Social Psychology)> 은 p-value 사용의 문제점을 설명하면서, 해당 저널에서 귀무가설 유의도 검정방법 (NHSTP) 및 관련 통계 방법의 사용 금지를 발표했습니다. 편집장 데이빗 트라피모 (David Trafimow) 와 부 편집장 마이클 막스 (Michael Marks)는 논설을 통해 새로운 정책을 설명하면서, 이전에는 해당 저널에서 NHSTP 사용이 불필요함을 알렸으나, 앞으로는 이 사용이 전면 금지될 것임을 밝혔습니다. 그런데 여기서 트라피모 편집장은 어떤 통계적 접근법이 p-value를 대체할지는 모른다고 했습니다.
BASP 저널의 편집자들이 명시한 바에 따르면, 앞으로도 저자들은 저널에 p-value 및 NHSTP를 구성하는 다른 통계 척도가 들어간 논문을 투고할 수 있으나, 출판 전 p-value 등은 삭제됩니다. 또, 추론적 통계 방법은 필수가 아니지만, 저널에서는 “효과 크기를 포함한 강력한 기술통계를 요구할 것”임을 밝혔습니다. 편집자들은 이렇게 덧붙였습니다. “가능한 경우, 빈도 및 분배 데이터의 제시도 권장합니다. 마지막으로, 우리는 대부분의 심리학 연구에서보다 더 큰 규모의 표본을 권장합니다. 기술통계는 표본 크기가 커질수록 안정적이며 표본 추출 오차에서 발생하는 문제 역시 줄어들 것이기 때문입니다.”
BASP의 이 같은 결정에 대한 반응은 엇갈리고 있습니다. 독일 빌레펠트 대학교의 인지과학자 얀 드 뤼테 (Jan de Ruiter) 교수는 NHST를 신뢰하기 어렵다는 점에 동의하면서도 사용 금지가 올바른 움직임은 아니라고 덧붙였습니다. “추론통계가 전혀 없이 과학 연구를 하는 것은 불가능하다.” 는 것이 그의 의견입니다. 이 외에도, 표본 크기를 늘리겠다는 BASP의 정책은 예비 연구를 수행하는 젊은 연구자들에게 큰 어려움을 던져줄 수 있습니다. 이를 위한 방책으로 저널에서는 예비 연구와 확증 연구 각각에 대한 출판 규정 분리를 고려해볼 수 있을 것입니다.
과학의 정확성을 유지하기 위해 어떤 연구자들은 통계적 논의 또는 베이지안 분석(Bayesian analysis)으로 p-value를 보충하자고 제안하기도 했습니다. 그러나 BASP는 베이지안 분석의 사용을 반기지 않습니다. P-value의 사용 금지 결정에 대해 학계에서 논쟁이 일어나고 있지만, BASP의 새로운 정책이 p-value에 대한 과도한 의존이 낳은 문제들에 학계의 관심을 불러온 것은 분명해 보입니다.