통계

분산분석, F-value, T-value 기술통계량

Y0un9Ki 2024. 2. 14. 22:32

미니 프로젝트를 진행하면서 한개의 연속형 종속변수에 여러개의 범주형 독립변수가 설정됨으로써 우리는 분산분석이라는 통계기법을 사용하게 되었다. 강사님이 알려주신 부분이 아니라 혼자 공부를 해서 정리를 하게 되었다.

분산분석의 로드맵

우리가 분산 분석을 시작할 때는 만족해야 하는 가정들이 있다. 등분산성을 띄는가 정규분포를 띄는가에 대해서 먼저 검증을 해야 한다. 그에 따라 우리가 선택해야 할 방법들이 정해지는 데 그것을 나타내는 로드맵이다.

 

일단 분산분석이란?

  • 모집단안에 여러(3개 이상)표본집단이 존재 할때 표본집단의 표본평균의 차이를 확인하는 검증이다. 가장 쉬운 생각은 t-val값과 달리 표본집단이 3개 이상이기에 t-value와 같이 표본집단의 평균차이를 알수가 없다. 그렇기에 표본집단들의 표본평균의 평균을 구해서 표본집단들의 표본평균의 평균과 얼마나 표본집단의 표본평균이 떨어져 있는지를 즉 표본집단들 간의 분산이 어떻게 되는지를 구하는 검증인 것이다.
    • 여기서 결국에는 여러 표본집단들의 표본평균들의 평균과 얼마나 표본집단의 표본평균이 떨어져 있는가? 결국에는 표본집단들의 표본평균 값들 사이에 분산을 확인하는데 이것으로 여러 표본집단들의 표본평균이 같은지 같지않은지 가설을 설정해서 확인할 수 있다.
    • 여기서 우리는 귀무가설이 기각이 되었을 때 즉 표본집단들의 표본평균값의 평균과 각 표본집단의 표본평균과의 차이(표본집단간의 표본평균 분산)가 발생했을 때 분산분석만으로는 어떤 요인에 의해 표본집단들의 표본평균값의 평균과 표본집단의 표본평균과의 차이(표본집단간의 평균의 차이)가 유의미하게 발생하는지 알 수가 없다. 그렇기에 사후검정을 진행해야 한다.

사후검정

  • 사후검정은 분산분석에서 귀무가설이 기각이 되었을 때 즉 표본집단들의 표본평균값의 평균과 각 표본집단의 표본평균과의 차이(표본집단간의 표본평균 분산)가 발생했을 때 분산분석만으로는 어떤 요인에 의해 표본집단들의 표본평균값의 평균과 표본집단의 표본평균과의 차이(표본집단간의 평균의 차이)가 유의미하게 발생하는지 알 수가 없다. 그렇기에 사후검정을 통해 각각의 요인을 t-test를 통해 확인을 하게 된다.
  • 따라서 사후검정을 통해 각 요인에 대한 t-test를 진행하여 검정을 진행하게 된다.
  • 우리가 사후검정에서 중점적으로 봐야하는 값은 p-Value 값도 있으나 t-Value, 즉 T통계량으로 이것을 확인하게 된다.
    • t-Value 값이 크다는 것은 우리가 선택한 요인들, 즉 표본집단의 평균의 차이가 크게 난다는 것을 의미한다.
    • 시각화 자료(그래프)에서는 서로 멀리 떨어져있다는 것을 의미한다.
    • 여러 표본집단에 의한 분산분석을 진행할 때 p-Value에 의해 표본평균들의 차이가 유의미하게 나타난다고 해석할 수 있다.

분산분석 기술통계량

  • F-value가 T-value와 약간 차이를 보이는 점은 그룹 간 차이 정도와 불확실도를 약간 변형해 사용한다는 점이다. F-value는 이들로 부터 계산한 분산의 비율을 척도로 이용한다.
    • T-Value란? 2개의 표본집단의 표본평균을 뺀값에 불확실성(그래프가 얼마나 퍼져있는가의 값)을 나눠준 값이다. 2개의 표본집단의 표본평균의 차이가 얼마나 나는지를 알수 있는 값이다. T-value값이 크면 클수록 두 표본집단의 표본평균의 차이가 많이 난다는 것이다.(그래프가 멀리 떨어져 있다)
    • F-value란? 표본평균들의 차이(위에 그림을 봤을 때 분산의 값이 되게 된다.)을 불확실성으로 나눠주는 것이다. 즉 표본집단들의 표본평균 사이에 퍼진 정도를 표본내에서 퍼진 정도(불확실성)로 나눠준 값이다. 표본집단의 표본평균들이 표본집단들의 표본평균의 평균으로 부터 얼마나 퍼져있는 지를 확인할수 있는 값.

'통계' 카테고리의 다른 글

상관 분석(Correlation analysis)  (0) 2024.03.13
회귀분석  (0) 2024.02.14
카이제곱분포, 교차분석  (2) 2024.02.14
T-test(T-검정)  (0) 2024.02.14
통계분석 로드맵  (0) 2024.02.14