본문 바로가기

C.E/Data Science (with python)3

[O'REILLY-데이터 과학] 스터디 스따뜨 & 2장 기본기 다지기 데이터 과학 입문을 위해 구입한 책. 기술적인 내용은 차치하고 일단 저자가 개그감각이 있고 글이 굉장히 이해하기 쉽게 쓰여져 있다. 이것만으로도 일단 이 책은 데이터 과학 입문자에게 너무 좋은 책이라는 생각이든다. (재미있게 공부할 수 있는게 해주는 선생님이 최고 아닌가?) 단, 이 책은 코드를 기본적으로 안다는 가정하에 내용이 작성되었다고 생각한다. 기존에 프로그래밍 언어에 대해 아는것이 전혀 없다면 쉽게 읽히지 않을 수도 있다. 책에서는 파이썬 2.7 을 사용하기를 권장한다. (현재 파이썬 3.8이 최신이다) 이유는 안정되어 있으며, 많은 중요한 라이브러리들이 2.7에서만 동작한다고 한다. 그러니 나도 3.8을 삭제하고 (뭐든 최신이 좋은데...) 2.7로 다시 설치해본다. python 2.7을 새로.. 2020. 2. 21.
통계 기초 스터디 자료의 형태와 요약 1. 자료의 두 가지 형태 1) categorical(범주형) - 명목(Nominal) 변수: 순서 없는 범주를 가지는 변수 (성별, 지역, ..) - 순서(Ordinal) 변수: 순서가 있는 범주를 가지는 변수 (자동차 크기, 계층) 2) quantitative(양적) : 연속/이산 - 연속(Continuous) 변수: 무수히 많은 다른 값을 가짐 (키,몸무게,온도) - 이산(Discrete) 변수: 몇 개의 다른 값만 가짐 도수분포표 (Frequency table) ? 데이터를 그래프로 표현하는 이유 -> 전체적인 분포 패턴과 그 패턴을 벗어나는 극단적 관측치를 찾기 위한 것 줄기-잎 그림(Stemplot) - 모든 값이 양수면서 데이터 양이 많지 않아야 함 히스토그램(Histog.. 2020. 2. 19.
python 패키지 스터디 Numpy - 파이썬 패키지 - 다차원 배열 기능, 선형 대수 연산, 푸리에 변환, 유사 난수 생성기 - Numpy 의 핵심 기능은 다차원 배열인 ndarray 클래스 - reference : https://numpy.org/devdocs/reference/arrays.ndarray.html In [1]: import numpy as np In [2]: x = np.array([[1,2,3], [4,5,6]]) In [3]: x Out[3]: array([[1, 2, 3], [4, 5, 6]]) SciPy - 파이썬 패키지 - 과학 계산용 함수를 모아 놓음 (고성능 선형 대수, 함수 최적화, 신호 처리, 특수한 수학 함수, 통계 분포 등) - 희소 행렬 기능을 제공하는데, 희소 행렬이란 0을 많이 포함한.. 2020. 2. 18.