data-science-summary
-
jupyter notebook 자주쓰이는 단축키 정리data-science-summary/etc 2020. 12. 3. 21:57
1. 한줄 지우는 법 ctrl + d 를 동시에 누른다. 2. 위에 셀 추가하는법 esc 키를 누른 뒤 a 를 누른다. 3. 아래에 셀 추가하는법 esc 키를 누른 뒤 b 를 누른다. 4. 코드 실행하는법 shift + enter 동시에 누른다. 5. 셀 마크다운으로 변경하는법 esc 키를 누른 뒤 m 을 누른다. 6. 셀 코드로 변경하는법 esc 키를 누른 뒤 y 를 누른다. 7. 셀 삭제하는법 esc 키를 누른 뒤 d 를 2번 연속누른다.
-
markdown 문법 in jupyter notebookdata-science-summary/etc 2020. 12. 3. 21:53
Jupyter notebook 자주 쓰이는 키보드 단축키markdown 문법 정리 1. 한줄 띄워쓰는 법 해당 줄 마지막에 스페이스 키를 두번 주면 된다. 띄워쓰기 됨 2. 글자 굵게 하는 법 글자 앞뒤로 ** 을 주면 된다. **굵게** 3. 글자 기울이는 법 글자 앞뒤로 * 을 주면 된다. *kkk* 4. 수식으로 바꾸는법 수식 앞뒤로 $ 를 주면 된다. $y=10x$ 5. 코드 삽입하는법 ``` 로 코드를 감싸주면된다. ``` a = 1+2 print(a) ``` 6. 링크 이름 변경하는법 변경하고 싶은 이름을 [] 대괄호 사이에 입력하고 링크를 바로 뒤에 () 로 지정한다. [name](https://www.naver.com) 7. 글자 크게 하는법 # 개수로 조절한다. # h
-
배열 리스트 변환 array to list or list to array in pythondata-science-summary/preprocessing 2020. 10. 30. 22:56
배열을 리스트로 tolist() a = np.array([1,2,3]) print(a) print(type(a)) print(a.tolist()) print(type(a.tolist())) 리스트를 배열로 np.array() a = [1,2,3] print(a) print(type(a)) print(np.array(a)) print(type(np.array(a)))
-
배열 인덱스 정렬 in pythondata-science-summary/preprocessing 2020. 10. 30. 22:53
배열 인덱스 오름차순 정렬하는법 import numpy as np x = np.array([1,4,3,2]) print(np.argsort(x)) 배열 인덱스 내림차순 정렬하는법 import numpy as np x = np.array([1,4,3,2]) print(np.argsort(x)[::-1]) 2차원 배열 인덱스 오름차순 정렬하는법 import numpy as np x = np.array([[1,4,3,2], [5,2,3,1]]) print(np.argsort(x)) 2차원 배열 인덱스 내림차순 정렬하는법 import numpy as np x = np.array([[1,4,3,2], [5,2,3,1]]) arr = [] for i in x: arr.append(np.argsort(i)[::-1]..
-
배열 정렬 하는법 in pythondata-science-summary/preprocessing 2020. 10. 30. 22:52
배열 오름차순 정렬하는법 import numpy as np x = np.array([1,4,3,2]) print(np.sort(x)) 배열 내림차순 정렬하는법 import numpy as np x = np.array([1,4,3,2]) print(np.sort(x)[::-1]) 2차원 배열 오름차순 정렬하는법 import numpy as np x = np.array([[1,4,3,2], [5,2,3,1]]) print(np.sort(x)) 2차원 배열 내림차순 정렬하는법 import numpy as np x = np.array([[1,4,3,2], [5,2,3,1]]) arr = [] for i in x: arr.append(np.sort(i)[::-1]) np.array(arr)
-
Association Rule (연관성 분석) in pythondata-science-summary/summary 2020. 9. 20. 20:30
Association Rule : 장바구니분석, 연관성분석 연관규칙분석이란 어떤 아이템의 집합이 번번히 발생하는가를 알려주는 일련의 규칙들을 생성하는 알고리즘 A priori Algorithm 모든 규칙들에 대한 지표를 계산한다는건 비효율적, 따라서 최소한의 지지도(support) 이상 되는 경우만을 탐색하여 효율적으로 계산함 -> {1,3} 번 아이템이 같이 나올 확률이 낮다면 {1,3, 다음 하나} 역시 확률이 낮음으로 계산하지않는다. Support : 지지도 x 와 y 가 함께 발생할 확률 -> P(A∩B) : frq(x,y)/N Confidence : 신뢰도 x가 나왔을 때 y가 나올 확률 -> P(A∩B) / P(A) : frq(x,y)/frq(X) Lift : 향상도(품목간의미) x, y 의 ..
-
RANSAC(RANdom Sample Consensus) in pythondata-science-summary/summary 2020. 9. 20. 18:34
RANSAC(RANdom Sample Consensus) 최소자승법(Linear Least Square)을 통한 예측은 아웃라이어가 있으면 크게 영향을 받는 반면 RANSAN은 가장 많은 수의 데이터들이 예측 모델 근방에 있는 모델을 선택하는 방법으로 아웃라이어에 강건하다. 데이터의 특정 두 점 또는 3점을 랜덤 선택하고 이 점으로 모델을 계산 => 모델 주위(오차범위내)의 데이터 개수를 계산 => 계산한 결과가 원하는 데이터 개수보다 적으면 다시 현재 오차범위내 데이터들로 다시 모델을 추정 => 원하는 데이터 개수를 만족하면 모델을 저장 => 이를 원하는 만큼 반복한뒤 최적의 모델 선택 from sklearn.linear_model import RANSACRegressor from sklearn.mod..
-
likelihood 와 maximum likelihood method 란? 간단정리data-science-summary/summary 2020. 9. 20. 18:32
likelihood 와 maximum likelihood method 란? 헷갈리는 개념인 likelihood는 확률과 비교하면 이해가 쉽다. 확률은 모수가 특정값을 같은다와 같이 정의됨 ex) 동전 2번 던지니 모두 앞면이 나올 확률은 1/4 이다. likelihood는 동전을 던져서 모두 앞면 나온 확률이 1/4일때 동전의 앞면 확률이 될 가능성이 있는 값을 역추적으로 찾는것 그리고 이때 가장 가능성을 크게 만드는것을 Maximum likelihood Method 라고 하며 미분의 극점 등을 이용해 최대로 나오는 1/2을 추정한다. 즉, 특정 사건이 이미 발생했을때(알고있을때) 그 확률을 계산할 수 있는 가능성을 가진 값 그리고 maximum likelihood method로 최대 가능 우도 즉, 가..