분류 전체보기 38

[데이터 분석 통계] A/B Test Summary

A/B Test란?두 가지 대안의 효과에 대한 비교를 하는 것통계적 검증 방법으로는 t-test, 카이제곱 검증이 있음t-test두 집단 간의 평균을 비교할 때 사용되는 통계 검증t-test 종류두 개의 집단 간 비교같은 집단 비교유의수준, 신뢰구간t-test 기본 가설 : 두 집단 간의 평균의 차이가 없다.p-value : 유의수준0.05보다 작을 때 : 가설이 지지되지 않음0.05보다 클 때 : 결론 유보신뢰구간에 0이 미포함 : 가설이 지지되지 않음카이제곱 test두 집단 간의 비율을 비교할 때 사용하는 통계 검증통계값의 해석p-value가 0.05보다 작을 때, 카이제곱 통계량이 점점 커진다.결과해석 예시 : a, b 광고의 클릭률이 같지 않다 / b 광고의 클릭률이 더 높다.

데이터분석을 위한 기초 통계3

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의검정의 종류1.무엇을 비교하냐(1)연속형(평균)집단에 따라-2개 집단 (t검정): 독립표본 (별개의 집단): 대응표본 (짝)-3개 이상 집단 (분산분석)(2) 순서형mwu (독립표본)윌콕슨 (대응표본)(3) 범주형(비율)카이제곱 (기댓값)-적합도-독립성 (독립표본)-맥니마 (쌍으로)검정의 종류마다 언제 사용하는지독립표본 t 검정 : 두 집단의 평균 비교대응표본 t 검정 : 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 (짝보다 많냐,적냐)맨-휘트니 U 검정 : 두 집단의 순서형 변수를 비교 (순서가 골고루 섞여있는가), 데이터가 적거나 분포가 찌그러졌거나 극단값있을 때 t검정 대신에 쓸 ..

데이터분석을 위한 기초 통계2

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의단순 무작위 표집(simple random sampling) : 모든 사례를 동일 확률로 추출계통 표집 (systematic sampling)-첫 번째 요소는 무작위로 선정한 후, 목록의 매번 k번째 요소를 표본으로 선정-ex) 선거 출구 조사시, 나오는 사람 7번쨰마다 질문-ex) DB에서 쌓이는 거에서 k번째마다 추출층화 표집 (stratified random sampling)-모집단을 이루는 각 계층별로 무작위 추출-ex) 여론조사 : 지역별, 연령별, 성별로 나누어 추출-남,녀의 연령별로만 하면 특정 집단에서 조사가 안 될수도 있으니... 비율이 채워질때까지 조사를 계속함집락 표집 (cluster ..

데이터분석을 위한 기초 통계1

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의[1교시]Q.통계를 왜 배워야 하나?전문가 판단보다 낫기 때문에 (일관성이 높음)[전문가 판단 vs. 통계적 예측]임상적 예측 대 통계적 예측 : 증거의 이론적 분석과 검토 / Paul Meehl (1954년) / 통계적 예측이 더 정확하다.-그로브 등 136개 연구에서 통계적 예측이 더 정확-루이스 골드버그 : 전문가를 예측하는 모형이 전문가 자신보다 정확-통계적 모델 (전문가가 내린 판단을 예측) 연구-전문가의 판단은 내부적, 외부적 잡음 (전문가의 능력을 떨어뜨림)에 영향을 받는다. / 비일관성ex) 네이버에 합격할지 예측하는 모형 : 통계 예측으로는 합격해야 하는데, 면접관은 불합격을 줌, 실제로 ..

[2023.05.09] 쿠버네티스 Session 2

클러스터클라우드 ?서버?랙 마운트 서버 (Rack Mount)Blade네트워크 1G vs. 10G(한번에 10기가가 지나갈 수 있어...!)CAPEX (Capital)OPEX 서버를 회사 내에 보유하다가, 인터넷이 나옴 !url, DNS 등...이제 서버를 회사 내에 구비하지 않아도 됨데이터센터 (Rack에 서버들이 들어있음. 이걸 서버로 빌려서 쓴다 ~)1.Iaas 데이터센터에 있는 서버를 빌린다.2.PaaS OS 선택, EC2, VM3.Saas 시스템 다 깔아놓고 로그인만 해서 써라.Managed Servies쿠버네티스는 클러스터 (클러스터 안에는 노드가 있다)스케쥴러서비스 (ip table, net fillter => 중간에서 ip 보내주는...)API server(가려져 있다. 볼 수 없음)CNI..

[2023.02.24] Kubernetes session1 (기본 개념 정리)

What is Kubernetes?쿠버네티스란 ?Container Orchestration Tool알아서 컨테이너를 관리해주고, 알아서 장애를 막아주고, 알아서 가장 효율적으로 리소스를 관리/실행해주는 컨테이너 관리 툴참고자료https://github.com/kubernetes/kubernetes/blob/master/logo/logo.svghttps://kubernetes.io/docs/home/https://pyrasis.com/jHLsAlwaysUpToDateKuberneteshttps://youtu.be/HNGEo7Kd3_k

[Docker] 기본 개념 정리

What is Container?Container 기술이란VM (Virtual Machine) : 자신의 컴퓨터나 서버에 여러 개의 서버를 생성하고자 할 때, 여러 개의 VM을 띄워야 함.여러 개의 서버를 생성할 경우, 리소스 사용량을 가볍게 만드는 방법을 찾게 됨그 결과 Container Engine들이 등장하게 됨ex) container d, docker, cri-o Container 기술의 특징이동성, 배포 편의성 (개발 및 환경 차이(ex: 버전 차이에 따른 오류)에 따른 변화 대응에 편의)가벼운 가상화 기술 (Guest OS의 부재로 자원의 효율성 증가)장점 : 자원 효율성 증가, OS 기동 시간 감소단점 : Host OS와 다른 Container 생성 불가, 보안 위험성 증가 What is D..

[2023.02.13] DB, DBMS, NOSQL 기초 개념 정리

DBDataBase (데이터 저장소)여러 사람이 공유할 목적으로 데이터를 구조화하고 저장하기위해 사용되는 시스템특징트랜잭션 처리를 위해 설계됨데이터베이스가 수행하는 여러개의 작업을 하나로 묶은 실행 단위[DB기초] 트랜잭션이란 무엇인가?주로 특정 애플리케이션의 데이터 저장과 관리에 사용일반적으로 관계형 데이터베이스(RDBMS)를 사용하며, SQL을 사용하여 데이터를 관리하고 검색DBMSDatabase Management System (데이터베이스 관리 시스템)데이터베이스를 관리하고 운영하는 소프트웨어대표적으로 MySQL, 오라클(Oracle), SQL 서버, MariaDB 등이 있음RDBMSRelational DBMS (관계형 데이터베이스)대부분 DBMS가 RDBMS 형태로 사용됨테이블(table)이라는..

Tech/DBMS 2024.12.11

[Deep Learning] Transformer: Attention Is All You Need 요약

자연어 처리 딥러닝 모델Seq2Seq한계점RNN 기반 모델 : 시퀀스 데이터를 처리할 때 시간 축으로 순차적으로 처리하면서 hidden state에 시퀀스의 정보를 담아가기 때문에 시간에 따라 오래된 정보가 일부 소실될 수 있다는 문제가 있음. (vanishing gradient problem)CNN 기반 모델 : 입력 데이터에 대해 고정된 크기의 필터를 적용하는 구조이기 때문에 입력 데이터의 길이나 구조가 다양한 경우 처리에 제약이 있음. (자연어 처리 분야에서 입력 데이터의 길이나 구조가 다양한 경우가 많음)Transformer현대의 자연어 처리 네트워크에서 핵심Attention 기법만 잘 활용해도 자연어 처리 task에서 좋은 성능을 얻을 수 있다.RNN이나 CNN을 전혀 필요로 하지 않음. 1...

[24년 12월 회고] 대시보드 지표 기준에 대한 고민

IPTV 이용자 활성화 지표에 대한 대시보드를 작성하는 과정에서 생긴 고민 1. ARPU, ARPPU IPTV를 설치한 것부터 매월 기본 요금이 과금이 된다.VOD, 채널, OTT에 대한 각각의 영역에서 무료/유료 고객으로 나누는 기준을 어떻게 세워야 할까? VOD 서비스 운영 실적에 대한 관점으로 보면IPTV를 이용하며 추가적으로 VOD에 과금을 유도하는 것을 목적으로 둔다. 이때 유료 사용자는 VOD 단건 구매, VOD 월정액 구독료 부가서비스 가입으로 정의할 수 있다.일정 기간 동안 서비스를 사용하는 모든 사용자에 대한 정의는 어떻게 내려야 할까?해당 기간동안 아예 셋탑을 실행하지 않은 경우는 제외"서비스를 이용한 모든 고객 = 채널 시청, VOD 구매, VOD 재생, 부가서비스 신규 가입, 셋탑 ..