본문 바로가기

Python14

[EDA] Python기반의 탐색적 데이터 분석 실습 이번 포스팅에서는 Pandas, Numpy, Matplotlib 등 Python의 패키지를 활용해 실제 데이터를 탐색적 분석해보는 실습을 진행해 보겠습니다. [사용 tool] Python Jupyter Notebook [데이터셋] koweps_visual 해당 파일의 원본 데이터셋은 저작권상 문제로 업로드하기 어려운 점 양해 바랍니다. [요구사항] - 권역별 연령층 분포와, 연령층별 지역비율을 시각화하여 확인하고자 한다. 0) 기초작업 [데이터 파일 살펴보기] 본격적인 전처리 작업에 들어가기 전, 위 데이터셋의 형태를 살펴보겠습니다. 수많은 행과 열로 구성이 되어있네요. 이것을 모두 활용하지는 않고, 일부 정제작업이 필요해 보입니다. 이 작업은 파이썬 상에서 이루어집니다. 본격적으로 파일을 읽어오기 전,.. 2023. 10. 10.
[파이썬 Pandas] 9. 그룹화 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시각화 " 강의를 듣고, 복습하고 공부한 내용을 다루었습니다. 오늘 포스팅할 내용은 다음과 같습니다. Pandas #9. 그룹화 (groupby) 14. 그룹화 =>그룹화를 하여 다양한 통계량을 계산하고, 알맞은 데이터를 추출해내는 방법을 학습할 수 있습니다. 14. 그룹화 오늘은 pandas 데이터분석의 기초이자 꽃, 그룹화에 대해 학습해보겠습니다. 먼저 들어가기 전에 이 질문 먼저 던지고 가 보죠. 그룹화를 하는 이유가 뭔가요? 그룹화를 왜 할까요? 그냥 통계를 돌리면 되지 않을까요? 라고 생각하실 수도 있는데, 그렇게 처리한다면 어려운 사항이 많습니다. 햄버거집을 예로 들어보겠습니다. 햄버거집에는 불고기버거, 치킨버거, 치즈버거 등.. 2022. 8. 26.
[파이썬 Pandas] 8. 함수 적용 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시각화 " 강의를 듣고, 복습하고 공부한 내용을 다루었습니다. 오늘 포스팅할 내용은 다음과 같습니다. Pandas #8. 함수 적용 13. 함수 적용 => .apply()함수를 적용하여 데이터 타입이 다른 문자 혹은 숫자를 추가할 수 있습니다. => python 반복문을 적용하여 첫번째 글자를 대문자로 일괄적으로 변경할 수 있습니다. 13. 함수 적용 처리작업에 들어가기 전 먼저 데이터를 임포트 시켜줍니다. 13-1 데이터타입이 다른 문자 추가하기 같은 데이터타입일 경우 문자를 다음과 같이 일반적으로 추가할 수 있습니다. 해당 칼럼 추가에 대한 자세한 내용은 python pandas 7. 데이터 수정 글을 참고해 주세요. https://.. 2022. 8. 23.
[파이썬 Pandas] 7. 데이터 수정 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시각화 " 강의를 듣고, 복습하고 공부한 내용을 다루었습니다. 오늘 포스팅할 내용은 다음과 같습니다. Pandas #7. 데이터 수정 12. 데이터 수정 => 데이터 칼럼수정, 대소문자 변환, 글자추가, 칼럼추가 및 삭제, 행 수정 및 삭제 등 작업을 수행할 수 있습니다. 12. 데이터 수정 처리작업에 들어가기 전 먼저 데이터를 임포트 시켜줍니다. 12-1 Column 수정 .replace()함수를 사용하여 칼럼을 수정할 수 있습니다. 함수 사용 시 dictionary형태로 key:value 형식으로 지정해 줍니다. 아래 코드와 같이 사용할 수 있습니다. 위 코드에서 inplace를 하지 않았으므로 실데이터셋에 변화가 없습니다. 속성을 .. 2022. 8. 19.
[파이썬 Pandas] 6. 데이터 결측치 처리와 정렬방법 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시각화 " 강의를 듣고, 복습하고 공부한 내용을 다루었습니다. 오늘 포스팅할 내용은 다음과 같습니다. Pandas #6. 데이터 결측치 처리와 정렬방법 10. 결측치 11. 데이터 정렬 => 데이터의 결측치 처리 방법, 정렬 방법에 대한 학습을 진행합니다. 10. 결측치 처리작업에 들어가기 전 먼저 데이터를 임포트 시켜줍니다. 참고로, 데이터셋에 결측치가 얼마나 있는지 여부는 .info()를 활용해 볼 수 있습니다. 다음 글을 참고해 주세요. https://dtandard.tistory.com/9?category=1031996 [파이썬 Pandas] 3. 데이터 확인 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시.. 2022. 8. 16.
[파이썬 Pandas] 5. 데이터 필터링 # 본 내용은 " [나도코딩] - 파이썬 활용편(5) 데이터분석 및 시각화 " 강의를 듣고, 복습하고 공부한 내용을 다루었습니다. 오늘 포스팅할 내용은 다음과 같습니다. Pandas #5. 데이터 필터링 09 데이터 선택(조건) => 조건을 이용해 데이터를 필터링 하는 방법에 대해 학습합니다. 데이터 필터링은 내가 원하는 조건을 걸어서 원하는 정보를 얻을 수 있게 하는 작업입니다. 평상시대로 학생의 키를 보여주라고 할 수 있지만, 키가 180cm이상인 학생의 키만 보여주라고 할 수도 있을 것입니다. 이 뿐만 아니라 점수에서도 볼 수 있습니다. 국어 점수가 70점 이상인 학생은 Pass를 준다고 할 경우, Pass를 받을 학생이 누구인지 확인할 수 있어야 합니다 이러한 경우, 조건필터링이 필요하다는 사례가.. 2022. 8. 11.