데이터 사이언스 스터디 7

[데이터 분석 통계] A/B Test Summary

A/B Test란?두 가지 대안의 효과에 대한 비교를 하는 것통계적 검증 방법으로는 t-test, 카이제곱 검증이 있음t-test두 집단 간의 평균을 비교할 때 사용되는 통계 검증t-test 종류두 개의 집단 간 비교같은 집단 비교유의수준, 신뢰구간t-test 기본 가설 : 두 집단 간의 평균의 차이가 없다.p-value : 유의수준0.05보다 작을 때 : 가설이 지지되지 않음0.05보다 클 때 : 결론 유보신뢰구간에 0이 미포함 : 가설이 지지되지 않음카이제곱 test두 집단 간의 비율을 비교할 때 사용하는 통계 검증통계값의 해석p-value가 0.05보다 작을 때, 카이제곱 통계량이 점점 커진다.결과해석 예시 : a, b 광고의 클릭률이 같지 않다 / b 광고의 클릭률이 더 높다.

데이터분석을 위한 기초 통계3

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의검정의 종류1.무엇을 비교하냐(1)연속형(평균)집단에 따라-2개 집단 (t검정): 독립표본 (별개의 집단): 대응표본 (짝)-3개 이상 집단 (분산분석)(2) 순서형mwu (독립표본)윌콕슨 (대응표본)(3) 범주형(비율)카이제곱 (기댓값)-적합도-독립성 (독립표본)-맥니마 (쌍으로)검정의 종류마다 언제 사용하는지독립표본 t 검정 : 두 집단의 평균 비교대응표본 t 검정 : 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 (짝보다 많냐,적냐)맨-휘트니 U 검정 : 두 집단의 순서형 변수를 비교 (순서가 골고루 섞여있는가), 데이터가 적거나 분포가 찌그러졌거나 극단값있을 때 t검정 대신에 쓸 ..

데이터분석을 위한 기초 통계2

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의단순 무작위 표집(simple random sampling) : 모든 사례를 동일 확률로 추출계통 표집 (systematic sampling)-첫 번째 요소는 무작위로 선정한 후, 목록의 매번 k번째 요소를 표본으로 선정-ex) 선거 출구 조사시, 나오는 사람 7번쨰마다 질문-ex) DB에서 쌓이는 거에서 k번째마다 추출층화 표집 (stratified random sampling)-모집단을 이루는 각 계층별로 무작위 추출-ex) 여론조사 : 지역별, 연령별, 성별로 나누어 추출-남,녀의 연령별로만 하면 특정 집단에서 조사가 안 될수도 있으니... 비율이 채워질때까지 조사를 계속함집락 표집 (cluster ..

데이터분석을 위한 기초 통계1

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의[1교시]Q.통계를 왜 배워야 하나?전문가 판단보다 낫기 때문에 (일관성이 높음)[전문가 판단 vs. 통계적 예측]임상적 예측 대 통계적 예측 : 증거의 이론적 분석과 검토 / Paul Meehl (1954년) / 통계적 예측이 더 정확하다.-그로브 등 136개 연구에서 통계적 예측이 더 정확-루이스 골드버그 : 전문가를 예측하는 모형이 전문가 자신보다 정확-통계적 모델 (전문가가 내린 판단을 예측) 연구-전문가의 판단은 내부적, 외부적 잡음 (전문가의 능력을 떨어뜨림)에 영향을 받는다. / 비일관성ex) 네이버에 합격할지 예측하는 모형 : 통계 예측으로는 합격해야 하는데, 면접관은 불합격을 줌, 실제로 ..

[Deep Learning] Transformer: Attention Is All You Need 요약

자연어 처리 딥러닝 모델Seq2Seq한계점RNN 기반 모델 : 시퀀스 데이터를 처리할 때 시간 축으로 순차적으로 처리하면서 hidden state에 시퀀스의 정보를 담아가기 때문에 시간에 따라 오래된 정보가 일부 소실될 수 있다는 문제가 있음. (vanishing gradient problem)CNN 기반 모델 : 입력 데이터에 대해 고정된 크기의 필터를 적용하는 구조이기 때문에 입력 데이터의 길이나 구조가 다양한 경우 처리에 제약이 있음. (자연어 처리 분야에서 입력 데이터의 길이나 구조가 다양한 경우가 많음)Transformer현대의 자연어 처리 네트워크에서 핵심Attention 기법만 잘 활용해도 자연어 처리 task에서 좋은 성능을 얻을 수 있다.RNN이나 CNN을 전혀 필요로 하지 않음. 1...

decision tree의 원리, Gini index, Entropy, 예제

의사결정나무 (decision tree)의 원리에 대해서 간략하게 알아보기. 머신러닝, 딥러닝은 통계학과 선형대수학(행렬, 벡터 등)을 기반으로 계산하는 기법들이 대다수임. * 머신러닝은 주로 정형화된 데이터를 활용하고, 딥러닝은 비정형화된 데이터 (이미지, 음성, 비디오 등)를 활용 1. 기계학습(machine learning) 중에서 지도학습 (supervised) 중에서 분류 (classifier) 기법에 해당 2. 개요 뿌리(Root) : 최상위에 있는 노드 (node)의 분류가 시작되는 곳 부모(Parent) 노드 : 상위 노드 자식(Children) 노드 : 하위 노드 말단(Leaf) 노드 : 최하위에 있으며, 더 이상 분류되지 않는 노드 3. 원리 뿌리 노드에 전체 데이터가 속해 있으며, 상..