728x90
반응형

통계 9

주성분 분석(PCA : Principal Component Analysis)

주성분 분석은 차원 축소의 방법으로, 원 데이터의 패턴을 보존하며 데이터의 차원을 줄이는 방법이다. PCA는 기존의 변수를 조합하여 서로 연관성이 없는 새로운 변수, 주성분들을 만들어 낸다. 쉽게 말해 PCA를 이용하면 고차원의 데이터를 낮은 차원의 데이터로 바꿔줄 수 있따는 것인데, 여기서 중요한 점은 어떻게 차원을 잘 낮추는 것인가? 이다. 예시를 들어 그림으로 설명해보면 2차원 데이터를 PCA를 통해서 1차원 데이터로 차원을 축소를 한 것을 볼 수 있다. 하지만 2차원 데이터를 1차원으로 차원을 축소를 하면 원 데이터의 특징을 모두 살릴 수 없다. 하지만 이러한 상황에서 최대한 특징을 살리며 차원을 낮춰주는 방법을 고안하기 시작했고, 이에 따라 나온것이 주성분 분석이다. 주성분분석 이란? 1) 정의..

통계 2024.03.14

모수와 비모수

통계학의 기초 개념을 간단하게 설명을 잘 해놓은 블로그 https://notebook.community/JKeun/lecture-statistics/.ipynb_checkpoints/ch01-Introduce-of-Statistics-checkpoint | notebook.community 연습문제 Q. 기술통계학과 추측통계학을 비교 설명하시오. notebook.community 모수와 비모수를 잘 나타낸 블로그 https://brunch.co.kr/@plusstar/183 모수와 비모수 누군가 “통계가 무엇입니까?”라는 질문을 던진다면 이제는 이렇게 대답할 수 있습니다. “통계는 확률입니다.” 확률을 표현한, 대표적인 연속확률분포이며, 세상의 모든 현상을 설명하는 정 brunch.co.kr 모수통계, ..

통계 2024.03.13

상관 분석(Correlation analysis)

데이터 분석을 진행 할 때 과연 이 변수들 간의 서로 관계가 있는지 없는지에 대한 의문을 갖게 된다. 상관관계에 대한 설명이 잘 되어있는 블로그가 있어서 그것을 참조하였기에 올려본다. https://eunhye-zz.tistory.com/29 데이터 자료 형태에 따른 상관분석 방법 1. 상관분석(Correlation Analysis) 두 확률 변수 간에 어떤 선형적 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정합니다. 하지만 두 변수간에 선형적인 관계가 있다고 해서 인과관계 eunhye-zz.tistory.com 그 때 우리가 어떠한 두 변수 사이에 상관 관계가 있는지 없는 지를 알아보고 싶을 때 우리는 그 데이터를 가지고 상관 분석을 하게 된다. 여기서 주의해야 할점은 우리가 밑에서 알아보..

통계 2024.03.13

회귀분석

회귀분석이란? 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법!!!! 독립변수 정보가 있을 때 이에 따른 종속변수를 예측할 때 사용한다!!! 예를 들면 날씨에 대한 레모네이드 판매량이 있을 때 날씨는 독립변수가 되고 레모네이드를 종속변수가 된다. 이 상황일때 날씨가 특정날씨가 되었을때 레모네이드의 판매량은 어떻게 될까? 라는 예측을 할 때 회귀분석을 사용한다. @@ 연속적인 자료형을 갖는 한 개의 종속변수와 연속적인 자료형을 갖는 다수 혹은 한 개의 독립변수 사이의 인과관계를 추정 할 때 회귀분석을 사용 독립변수의 개수가 하나이면 단순선형회귀분석 독립변수의 개수가 두 개이상이면 다중선형회귀분석 단순선형회귀분석 최소제곱법 : 측정값을 기초로 제곱합을 만들고 그것이 최소..

통계 2024.02.14

분산분석, F-value, T-value 기술통계량

미니 프로젝트를 진행하면서 한개의 연속형 종속변수에 여러개의 범주형 독립변수가 설정됨으로써 우리는 분산분석이라는 통계기법을 사용하게 되었다. 강사님이 알려주신 부분이 아니라 혼자 공부를 해서 정리를 하게 되었다. 분산분석의 로드맵 우리가 분산 분석을 시작할 때는 만족해야 하는 가정들이 있다. 등분산성을 띄는가 정규분포를 띄는가에 대해서 먼저 검증을 해야 한다. 그에 따라 우리가 선택해야 할 방법들이 정해지는 데 그것을 나타내는 로드맵이다. 일단 분산분석이란? 모집단안에 여러(3개 이상)표본집단이 존재 할때 표본집단의 표본평균의 차이를 확인하는 검증이다. 가장 쉬운 생각은 t-val값과 달리 표본집단이 3개 이상이기에 t-value와 같이 표본집단의 평균차이를 알수가 없다. 그렇기에 표본집단들의 표본평균의..

통계 2024.02.14

카이제곱분포, 교차분석

다양한 자유도에 따른 카이제곱 분포의 형태 카이제곱 분포는 통계량의 정의 상 표준정규분포로부터 얻은 랜덤 변수들을 “제곱”해 더하기 때문에 양의 확률변수에 한해서만 존재하는다는 것을 알 수 있다. 또 ‘더한’것이기 때문에 더해주는 변수의 수가 많아질 수록 정규분포도에 가까워진다.(중심극한정리) 카이제곱 분포의 쓸모 굳이 표준정규분포로 부터 얻는 랜덤 변수들을 제곱해서 더해주는 걸까? 이랬을 때 어떠한 쓸모가 있을까? 카이제곱 분포는 오차 혹은 편차를 분석할 때 도움을 받을 수 있는 분포이다. 회귀분석을 이용한 모델 제작 시, 우리가 얻은 데이터들은 모델의 출력값을 중심으로 하는 정규분포에서 랜덤하게 샘플링되어 얻은 값이라고 보는 것이다. 그것 뿐만 아니라, 중심극한정리에 따라 샘플수가 무수히 많고 합(s..

통계 2024.02.14

T-test(T-검정)

우리가 T-test의 가설을 설정 할 때는 무조건 평균의 차이를 얘기 해야 한다.!!! ⇒ 엄청 중요하다. t-test는 표본 집단(그룹) 간의 평균의 차이가 얼마나 나는 지를 알아보는 테스트이다.!!! T-Value란? : t-value는 다른 표본 집단 간의 표본 평균의 차이를 불확실성으로 나눠준 값이다. 왜 불확실성을 나누어 주냐? : 우리는 모 집단에서 임의로 표본 집단을 뽑아 표본 평균을 구하게 된다. 그 때 우리는 랜덤으로 뽑기 때문에 뽑은 표본의 평균은 항상 다르게 나온다. 그렇기에 우리는 t-value값을 구할 때 두 표본 집단의 평균을 뺀 값에 불확실성을 나누어 주는 것이다. 귀무가설과 대립가설의 설정 귀무가설의과 대립가설을 설정할 떄 막무가내로 설정하는 것이 아니다. 귀무가설 기존과 비..

통계 2024.02.14

통계분석 로드맵

우리는 통계분석을 하기 전에 먼저 데이터들의 자료형을 가지고 어떠한 통계분석을 선택할지 결정을 해야한다!!! 그것을 선택하기 전에 독립변수와 종속변수를 정의하고 가자! 영향을 받는 변수(y)=종속변수 = 반응변수 = 결과변수 영향을 주는 변수(x)=독립변수 = 설명변수 = 예측변수 종속변수는 항상 1개여야만 하고 독립변수는 여러개가 될수있다. 가장 기본적인 통계분석을 고르는 로드맵이다. 큰 방향을 결정할 때 쓰이기에 엄청 중요하지는 않지만 알아두면 도움이 될 듯하다.

통계 2024.02.14

확률분포와 각종 기술통계량

확률분포란? : 확률 변수에 의해 정의된 실수를 확률에 대응시키는 함수를 확률 함수라 하며 이를 그래프로 시각화 한것을 확률 분포라고 한다. 확률분포에는 2가지가 존재한다. 이산확률분포(확률질량함수, PMF) 연속확률분포(확률밀도함수, PDF) 이산확률 분포 연속확률분포 우리는 크게 정규분포, t-분포를 많이 사용한다. 추정 우리는 표본으로부터 미지의 모수를 추측 할 수 있다. 구간추정의 경우 출구조사에서 많이 사용 되어진다. 가설검정 우리는 모집단에 대한 가설을 설정한 뒤, 그 가설을 채택할지 말지를 결정해야 한다. 표본을 관찰하고 실험을 통해 귀무가설(영가설)과 대립가설을 설정해서 둘중에 하나를 채택하는 과정을 거친다. 여기서 항상 나오지만 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값..

통계 2024.02.14
728x90
반응형