빅데이터 분석/파이썬

빅데이터 분석 시작하기 (Why?, 언어, 환경)

류창 2021. 10. 22. 16:43
반응형

 

우리가 개발을할때 종종 기술을 선택해서 개발한다. 

그렇다면 왜? 그 기술을 쓰는지,  다른 기술과 차별점이 무엇인지 알아두고 쓰는것이 중요하다.

 

사용법만 국한된 프로그래밍, 남들 다 쓰니깐 나도 이거 써야지~ 식은,  위험한 방식이라고 생각한다.

 

그래서 이번 포스팅은, 

1. 왜 빅데이터 분석을하는가?

2. 빅데이터 분석을 하기위한 언어는 무얼 쓸것이고 왜 그 언어를 택햇나?

3. 해당 언어는 다양한 IDE를 지원한다. 그 IDE를 선택한 이유는 무엇인가?

 

의 대해 짧고 쉽게 핵심만 담아서 포스팅 할 예정입니다.

 

빅 데이터 분석을 하는이유:

 

 

폭발적인 데이터 증가
ex) 자율주행차량(autonomous car)은 8시간 동안 약 40TB의 데이터를 생산하고 소비
디지털 데이터의 단위 : Kilo<Mega<Giga<Tera<Peta<Exa<Zeta<Yotta

 

 

실시간으로 증가하는 데이터를 효율적으로 분석하고, 

한눈에 파악할수있는 기술이 필요해졌다.

 

 

 

 

빅데이터 분석을 하기위한 언어의 선택:  파이썬

 

왜?  파이썬인가?

 

1. 낮은 러닝커브, 직관적이다.

 

파이썬의 코딩스타일 첫번째,   C언어, Java와 달리 변수명(int,long,double,,)을 선언 안해도된다.

또한, 실행문 뒤에 매번 세미콜론(;) 을 붙힐 필요가없다.

 

파이썬의 코딩스타일 두번째,  코드의 들여쓰기 

if 문 ,for문, 메소드(함수) 등등.. 코드의 들여쓰기 규칙을 잘지켜야한다. <안지키면 오류>

C와 Java와 달리 괄호{}를 쓰지않기때문에 들여쓰기 규칙을 준수해야한다.

 

 

파이썬의 코딩스타일 덕분에 배우기도 쉽고, 무엇보다도 깔끔해서 직관적이다.

 

 

2.다양한 라이브러리 지원

 

넘파이 , 판다스, 맷플롯, 씨본....

 

빅데이터를 원하는 정보를 쉽고 직관적으로 보여주는 시각화 라이브러리를  다양하게 지원한다.

 

 

3. 대용량 데이터 (빅데이터)의 빠른 처리

 

 

 

파이썬의 개발환경 선택:  아나콘다 - 주피터 노트북 (Jupyter Notebook)

 

파이썬을 지원하는 IDE(개별환경)이 여럿있다.

 

파이참, 주피터 노트북, VS Code....

 

그중에서 주피터 노트북을 선택하기로했다.

 

 

왜? 주피터 노트북인가

 

주피터노트북을 쓰는 가장 큰 이유는 학습하기 최적화 되어있다.

 

주피터 노트북의 특징1: 한줄 한줄 코드를 실행하여 결과를 확인할수 있다.

 

->한줄한줄 코드를 실행할수있어서, 어느 부분이 오류가나는지 확인 하고 고칠수있다. (디버깅효과)

->처음 학습코딩할때 최적화

 

 

주피터 노트북의 특징2: 파일의 자동 저장기능 

 

-> 주피터 노트북을 실행하고, 폴더의 파이썬3파일을 만들고 코딩하면 실시간으로 자동저장을해줌

->저장을 해야하는 번거로움을 줄여줌

 

 

주피터 노트북의 특징3: 깔끔한 마크다운 기능 지원

 

->  영어로된 복잡한 프로그램을  마크다운으로 추가설명을 할수있다.

->  주석보다 훨씬 깔끔하다.

 

주피터 노트북의 특징4: 다양한 방식의 배포, 공유가 가능

 

-> 주피터 노트북은  파이썬파일 뿐만아니라, 다양한 파일형식을 지원한다.

-> 그중의 하나인 HTML형식도 지원하는데,  파이썬 코드와 결과를 IDE없이 한눈에 바로 볼수있다.

 

 

 

따라서, 앞으로 빅데이터 분석 포스팅은 파이썬 - 주피터노트북 IDE를 통해 포스팅을 하겠습니다.

 

반응형