페이스북 그룹 ‘Python Korea’에 데이터 분석 학습 모임 광고가 뜬 걸 보고 참가 신청했다. ‘데이터 분석 스터디’라는 페이스북 그룹의 모임이다. 지원자들이 스무 명 가까이 줄을 설 만큼 인기가 많았다. 나도 친구들과 함께 참가하고 싶었지만 모임에 빈 자리가 없어 혼자만 끼게 됐다. 이 모임에서 『파이썬으로 데이터 주무르기』를 교재로 학습했다.

데이터 분석 과정을 보여주는 책

파이썬으로 데이터 주무르기

좋은 스토리를 쓰려면 설명하지 말고 보여주라고 했다. 저자가 그 격언에 따른 것인지, 이 책에는 설명이 별로 없는 대신 흥미진진한 예제로 가득하다. ‘저렴한 주유소 찾는 법’처럼 가벼운 일상 프로젝트부터 ‘인구 소멸 지역 분석’처럼 연구 주제로 다뤄볼만한 프로젝트까지, 데이터 분석가가 실제로 할 법한 중규모 프로젝트들을 보여준다.

데이터 분석 전체 과정을 다루는만큼 소개하는 내용이 적지 않다. 수작업과 크롤링으로 데이터를 수집하는 과정, 수집한 데이터를 정리정돈하는 과정, 데이터의 특징을 요모조모 살펴보고 조작해보는 과정, 플롯팅·매핑 등 여러 가지 시각화해보는 과정 등이 소개된다. 실습에 쓰이는 도구도 많아서, 파이썬, 팬더스(Pandas), 넘파이(NumPy), 폴리엄(Folium), 뷰티플 솝(Beautiful Soup), 셀레늄(Selenium), 구글 맵스, KoNLPy 등 여러 도구가 쉴새 없이 등장한다. 분량이 다소 많을 수 있으나, 진행 과정이 처음부터 끝까지 차례차례 나오므로 조금 노력하면 대부분의 사람들이 따라할 수 있을 것 같다.

데이터 분석에 필요한 지식과 도구를 모두 익힌 뒤에 일을 하고자 한다면 엄두를 내기 어려울 것이다. 저자는 독자들이 세부 사항을 스스로 학습할 것이라고 믿고, 독자들이 데이터 분석 실무 과정을 체험하도록 하는 데 집중한다. 덕분에 입문자들이 전체 그림을 파악하기에 좋은 책이 된 것 같다. 데이터 분석을 시작해볼까 고민하는 분들, 어떻게 시작해야 할지 알고 싶은 분들이 보기 좋다. 나도 이 책을 학습하고는 팬더스와 통계학을 좀 더 공부해보고 싶은 마음이 생겼다. 함께 학습한 스터디 그룹에서도 다음에 학습할 책으로 『파이썬 라이브러리를 활용한 데이터 분석』이 선정되었다.

실습하고 응용하며 배우기

1장부터 6장까지 책 내용에 따라 실습을 해 봤다. 설명이 많지 않아 스스로 고민하고 찾아 봐야 하는 부분도 적지 않지만, 전체적으로는 무난하게 실습이 가능했다. 7장과 8장은 읽어보기만 하고 실습은 생략했다.

내가 진행한 실습 코드: https://github.com/bakyeono/study-python-ds

데이터 분석을 파이썬으로만 하란 법은 없으니 책 내용을 응용해서 R, 클로저(Clojure), 자바스크립트 등 다른 언어로 해 보는 것도 재미있을 것 같다.

미식가 친구 김동욱 씨가 “더본코리아 프랜차이즈 기업의 음식점들을 안내하는 지도가 필요하다”고 얘기하곤 했는데, 책에 나온 내용을 응용해 볼 겸 하여 지도에 매장을 표시해 봤다. 음식점 정보는 더본코리아 웹사이트에서 구할 수 있고, 파이썬 스크립트를 작성해 수집했다. 지도에 표시하는 것은 리플릿(Leaflet) 라이브러리로 했다. 폴리엄도 이 라이브러리를 쓴다.

책을 눈으로만 보기보다는 이렇게 실습해보고, 응용도 해보는 편이 학습 효율이 좋다.