728x90
반응형

Data Analysis 4

Pandas loc을 이용한 행 & 열 필터링

오늘은 pandas의 사용을 배웠다. 기본적인 메서드와 여러가지의 조건문, 메서드를 배웠다. 기본적인 문법 형태나 메서드가 Numpy와 유사했으며 파이썬과 같이 인덱싱과 슬라이싱이 비슷했다. 느낀점은 매개변수 자리에 리스트 값으로 들어가는 경우가 많았다. 강사님이 오늘 내주신 주제에 대해 알아보려고 한다. pandas.DataFrame.loc와 pandas.DataFrame.iloc 메서드의 차이점을 보자. 이 메서드는 기본적으로 열추출 또는 행추출을 할 수 있는 아주 훌륭한 메서드이다. 들어가기 앞서 기본적인 행추출(=행선택)을 하는 방법이있다. Slicing(슬라이싱)과 동일한 문법으로 추출 가능 이와 같은 데이터가 있을 때 파이썬의 슬라이싱과 같이 행을 추출, 선택 할 수 있다. 다음에 열을 추출하..

Pandas 데이터 셋의 행과 열 수정

프로젝트를 하다보니 데이터의 수정과 변경이 많이 필요했고 그에 따라 많은 Pandas에서 지원하는 메서드를 찾아 보았다. pd.cut() : 연속형 자료를 범주형 자료로 category화 해주는 메서드 매개변수로는 bins, labels, right=False 값이 들어간다. labels값은 bins값보다 항상 1개 적어야 한다. bins는 연속형 자료를 범주형 자료로 바꾸기 위해 범위를 정해주는 매개변수이다. (말로는 설명이 어려우니 밑에 예시 코드를 써놓자!) labels는 우리가 나눠준 범위에 이름(label)을 붙여주는 즉 카테고리 화 해주는 매개변수이다. right=False 매개변수는 우리가 지정해놓은 bins의 맨 마지막 값을 범위로 포함하지 않겠다는 의미이다. 우리는 pd.cut() 메서드..

판다스에 기본인 데이터 파일을 내보내고 가져오기

판다스에 기본인 데이터 파일을 가죠오고 내보내는 방법을 보자. pd.read_csv() : 파일을 가지고 오는 메서드이다. 매개변수로는 불러오는 csv파일의 경로와 인코딩 방법, 인덱스 열을 설정하는 매개변수가 있다. 경로는 따옴표 안에 작성 ex) ‘data_set.csv’ 인코딩 방법은 encoding=’ ’이라고 작성 인덱스 열을 설정하는 방법은 index_col = ‘접수연도’ 이런식으로 들어간다. pd.read_csv('김포아파트(매매)__실거래가_20240204151054.csv', encoding=”euc-kr’, index_col=’접수연도’) dataframe.to_csv() : 파일을 원하는 경로에 내보내는 방법이다. 내보내는 메서드는 데이터셋의 이름 뒤에 .to..

Pandas 데이터 통합하기

데이터를 통합하는 여러가지 메서드가 있다. pd.concat() = 세로방향 통합 pd.join() = 가로방향 통합 pd.merge() = 조건에 따른 완전 통합 pd.concat() pd.concat()은 첫번째 매개변수를 리스트 형태로 가져가게 된다. 두번째 매개변수인 ignore_index=True는 인덱스를 번호를 순서에 맞게 다시 오름차순으로 정렬해준다. 원래는 df1, df2의 각각의 인덱스가 들어오게 되는데 ignore_index=True을 하면 인덱스가 초기화되고 순서대로 인덱스 번호가 정렬된다 pd.join() join() 메서드는 칼럼방향 즉 가로방향으로 통합할 때 쉽게 쓸수있기에 좋다. 합칠 데이터들의 인덱스 라벨이 같으면 문제없이 합쳐진다. 합칠 데이터들의 인덱스 라벨이 다르면 합..

728x90
반응형