빅데이터 분석 8

파이썬 : 웹 스크래퍼 만들기(2)

지난 웹 스크래퍼에선 wwr에서 정보를 빼오는 메소드를 만들어봤다. 이제 이 메소드를 활용해 웹사이트를 간단하게만들어보자. 레블릿 웹사이트에서 Flask() 라이브러리를 사용하면, 레플릿이 알아서 서버를 개통해준다. app.run(" ")을 통해 열고싶은 포트를 입력해주면 콘솔과 웹창을 띄어준다. @app.route() 는 RESTAPI 요청을 컨트롤하는 메소드다 다음과 같은 경로가 입력되면 아래에 있는 함수를 호출한다. Flask의 render_template으로 html을 호출할수있다. 호출하는 html은 다음과같다. render_template은 html을 호출함과동시에, 정보를 함께 담을수있다. 본인은 이름도 함께 입력해서 보냈다. Flask에서 변수를 {{}} 쌍 중괄호로 인식을한다. 장고 템플..

파이썬 : 웹 스크래퍼 만들기 (1)

웹 스크래퍼란? 요약하자면, 웹을 서핑해서 정보를 긁어오는 기능이다. 스크래퍼를 잘 작성해두면, 한번의 키워드로 여러 사이트의 정보들을 가져와서 가공할수있다. 사용할 기술: Python과 각종 라이브러리 간단하게 replit.com 사이트를 통해서 작성을 해볼것이다. 로그인을 한뒤 여기서 파이썬 프로젝트를 간단히 만들어보자. 라이브러리 BeautifulSoup를 사용하여 웹을 스크래핑할것이다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation Non-pretty printing If you just want a string, wit..

파이썬 머신러닝 :회귀모형

본격적으로 머신러닝을 사용해볼것이다. 머신러닝시스템은 크게 2가지로 나뉜다. 지도학습 VS 비지도학습 지도학습 : 특성(Feature) 과 레이블(label)을 가지면서 머신러닝을 하는방식이다. 비지도학습: 훈련데이터에 특성들만 있는 레이블이없는 형태로 머신러닝하는방식. 지도학습의 학습형태는 또 2가지로나뉩니다. 분류 VS 회귀 지도학습중에서 회귀를 먼저 다뤄볼것인데요. 회귀(Regression)는 수치형데이터를 머신러닝할때 사용합니다. 수치형 데이터란? 사람들의 몸무게, 키, 나이 , 혈압처럼 0~N만큼 수치를 가지는 데이터입니다. 분류는(Classification) 범주형 데이터를 머신러닝할때 사용합니다. 범주형 데이터란? 사람들의 혈액형, 성별 또는 꽃의 종류 와같이 뚜렷하게 분류할수있는 데이터입니..

파이썬 맷플롯(Matplot) 라이브러리

o Matplotlib § 쥬피터 노트북에서 사용 가능한 차트 모듈 맷플롯으로 다양한 시각화 차트를 지원함. 맷플롯 선언 import matplotlib.pyplot as plt 맷플롯 선형 차트 선언 기본적인 사용법 plot(x,y) 0~10 까지 100개의 간격의 수를, x, sin(x)로 그래프를 그린 그림 plot의 다양한기능 -> color 설정 , linestyle 설정, label 설정이가능함. plot의 제목은 title로 통해서 지정할수있다. plt의 xlabel, ylabel로 정보를 나타낼수있다. plt의 xlim, ylim로 그림이 그려지는 크기를 조절할수있다. plt.lengend() 로 범례를 표시한다. plt.tight_layout()으로 그림만 띄울수도있다. 맷플롯 산점도 차..

파이썬 판다스(Pandas) 라이브러리

Pandas란? 구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력 한 데이터 분석 환경 제공 판다스(pandas)를 이용해서, 빅데이터를 수정, 추가, 가공해서 볼 수 있다. 판다스 선언 import pandas // import pandas as pd 를 쓰기도함 판다스의 객체 -> Series 객체 형태로 출력됨. Series는 딕셔너리와 같이, index값을 유연하게 변경할수있다. Key, value형식 활용가능. Ex)dat = pd.Series([0.3, 0.7, 0.2]) dat[2] //0.2 dat = pd.Series([0.3, 0.7, 0.2], index=['a1','a2','a3']) ->인덱스값을 바꿀수있다. dat['a2'] // ..

파이썬 넘파이(Numpy) 라이브러리

Numpy: § 숫자 배열을 효과적으로 저장하고 가공하는 전문도구 NumPy의 기능 § 빠르고 효율적인 다차원 배열 객체 ndarray ü 데이터 컨테이너 역할 § 배열 원소를 다루거나 배열 간의 수학 계산을 수행하는 함수 § 디스크로부터 배열 기반의 데이터를 읽거나 쓸 수 있는 도구 § 선형대수 연산, 푸리에 변환, 난수 발생기 Numpy 선언 import numpy as np np.array([1,4,2,5,3]) //배열 선언 np.array([1,2,3,4], dtype=float32) //float형으로 선언 np.array([[1,2,3],[4,5,6]]) // 2차원배열 선언 여러가지 내장 기능 np.zeros(10, dtype=int) #0으로 채운 배열 np.ones((3,5), dtyp..

파이썬 기초 다지기

파이썬을 통해 빅데이터 분석을 하기 전에, 파이썬의 기초 문법을 확실히 알아두자. 1. 라이브러리 Import 사용하고싶은 라이브러리가 있으면 import를 하면된다. import (라이브러리 이름) 으로 코딩하면된다. 추가로 알아두면 좋은것이, import (라이브러리 이름) as (편한이름) 으로 설정하면, (편한이름).sqrt() , (편한이름).pow() 로 사용할수있다. EX) numpy->np , pandas ->pd 2. for 문 기본 형태는 for x in range()이다. x는 데이터 이름을 , range()는 범위를 설정한다. range(10)은 0~9까지 하나씩돈다 . 증분의 디폴트는 +1이다. 증분을 설정하고싶다면, range(시작, 끝, 증분) 으로 사용하면된다. 3. if문 ..

빅데이터 분석 시작하기 (Why?, 언어, 환경)

우리가 개발을할때 종종 기술을 선택해서 개발한다. 그렇다면 왜? 그 기술을 쓰는지, 다른 기술과 차별점이 무엇인지 알아두고 쓰는것이 중요하다. 사용법만 국한된 프로그래밍, 남들 다 쓰니깐 나도 이거 써야지~ 식은, 위험한 방식이라고 생각한다. 그래서 이번 포스팅은, 1. 왜 빅데이터 분석을하는가? 2. 빅데이터 분석을 하기위한 언어는 무얼 쓸것이고 왜 그 언어를 택햇나? 3. 해당 언어는 다양한 IDE를 지원한다. 그 IDE를 선택한 이유는 무엇인가? 의 대해 짧고 쉽게 핵심만 담아서 포스팅 할 예정입니다. 빅 데이터 분석을 하는이유: 폭발적인 데이터 증가 ex) 자율주행차량(autonomous car)은 8시간 동안 약 40TB의 데이터를 생산하고 소비 디지털 데이터의 단위 : Kilo 주피터 노트북은..