서울시 녹지대 (1) - 데이터 전처리

데이터 분석📉/전처리 및 시각화

by Hashtag me 2024. 4. 28. 12:17

* 사용한 Tool : Google Colab

* 데이터 출처 : 서울시 열린데이터 광장

https://data.seoul.go.kr/dataList/OA-1321/S/1/datasetView.do

시작에 앞서

서울특별시 '광진구'의 빅데이터 분석 공모전으로부터 출발했다.

한여름의 고온다습과 공해를 줄이는 데 도움되는 '녹지화'의 효과를 보고자 했다.

광진구 하나의 자치구에 대해 보기 전에, 서울시 내 녹지화가 어떻게 되어있는지 확인하고자 한 것이 해당 분석의 목적이다.

# 파일 불러오기
path = r'/content/drive/MyDrive/data' # 파일 들어있는 경로
file = r'/녹지대_데이터/서울시 녹지대 위치정보 (좌표계_ WGS1984).csv'
import pandas as pd
green_df = pd.read_csv(path+file, encoding = 'EUC-KR')

파일 인코딩 형식 찾는 방법

# chardet 모듈 설치해야 함 (pip install chardet)
import chardet # 문자열 인코딩 찾아주는 모듈

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
    return result['encoding']

detect_encoding(파일경로객체)

1. 칼럼 제거

데이터프레임으로 불러온 테이블을 확인하고, 모두 결측되어 있거나 사용하지 않을 칼럼을 제거해준다.

# 칼럼 제거
green_df=green_df.drop(['녹지대조성년도','생성일','조경량','사진파일명'], axis=1 )
# drop 대상이 칼럼인 경우 axis = 1 
green_df

2. 형(type) 변환

추후에 데이터 위도,경도 좌표를 바탕으로 지도에 맵핑할 것이다.

information을 확인해보니 위도,경도가 object이다. float로 바꿔준다.

처음에 계속 오류 떴는데 메세지 읽어보니 공백이 있다는 듯한 메세지여서 확인하고 공백-> 결측치로 바꿔주고 진행했다.

오류메세지 : ValueError: Unable to parse string " "

# 공백 ''을 NaN으로 바꾸고 결측치 제거
green_df[green_df['경도']==' ']= pd.NA # 공백을 결측치로
green_df.dropna(subset=['위도','경도'], inplace=True)
green_df[['위도','경도' ]] = green_df[['위도','경도' ]].astype(float)
green_df.info()

3. object(문자열) 변수 확인 및 수정

예시는 녹지대분류 변수이다.

(데이터 작성자가 여럿이었는지, 오타와 다른이름의 공통된 값이 많았다.)

# 확인 
green_df['녹지대분류'].value_counts()

# 변경 
green_df['녹지대분류']= green_df['녹지대분류'].str.replace(' ','미분류')
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('도록변녹지','도로변녹지')
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('노로변녹지','도로변녹지')
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('도로변녹지대','도로변녹지')
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('쉼터','휴식공간')

green_df['녹지대분류']= green_df['녹지대분류'].str.replace('노변분리.*','노변분리대', regex = True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('자투리.*','자투리녹지', regex = True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('.*공공.*','공공건물', regex=True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('.*하천변.*','하천변', regex=True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('.*지하철.*','지하철환기구주변', regex=True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('.*건물조.*','건물조경', regex=True)
green_df['녹지대분류']= green_df['녹지대분류'].str.replace('.*문화재.*','문화재주변', regex=True)

green_df['녹지대분류'].value_counts()

저작자표시 비영리 변경금지

'데이터 분석📉 > 전처리 및 시각화' 카테고리의 다른 글

파일 인코딩 타입 찾기 (0)	2024.05.07
코랩(Colab) 에서 Matplotlib 그래프 한글깨짐 현상 해결 (0)	2024.04.28
서울시 녹지대 (2) - folium을 활용한 지도 시각화 (2)	2024.04.28

🌤️블로그하기 죠은 날

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

시작에 앞서

목차

0. 파일 불러오기

1. 칼럼 제거

2. 형(type) 변환

3. object(문자열) 변수 확인 및 수정

'데이터 분석📉 > 전처리 및 시각화' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바