분류 전체보기 39

[2023.03.24] MLOps 개념 및 활용 사례 정리

What is MLOps?MLOpsMachine Learning Operations의 약어연구소에 머물고 있는 머신러닝 모델들을 실제 비지니스 환경(복잡하고 예측이 어려운 환경)에 운영하기 위한 기술들MLOps의 필요성ML Model을 실제 비지니스 환경으로 적용할 때 문제점Model : 어떤 데이터를 넣으면, 어떤 결과가 나올 것인지를 규정하는 시스템을 의미한다.ML Modeling 과정에서는 아이디어를 검증하기 위해 예측 정확도가 중요하고, 많은 가정하에서 데이터를 학습하게 됨실제 비지니스 환경에서는 굉장히 많은 복잡성과 불확실성이 있음 (서비스 안전성이 중요해짐)특히 자원의 경우 모델이 좋아도 1개의 모델이 초당 고가의 GPU를 사용하게 된다면 서비스 양을 장담할 수 없게 됨사용자의 트렌드에 따라 ..

Tech/MLOps 2024.12.11

[데이터 분석 통계] A/B Test Summary

A/B Test란?두 가지 대안의 효과에 대한 비교를 하는 것통계적 검증 방법으로는 t-test, 카이제곱 검증이 있음t-test두 집단 간의 평균을 비교할 때 사용되는 통계 검증t-test 종류두 개의 집단 간 비교같은 집단 비교유의수준, 신뢰구간t-test 기본 가설 : 두 집단 간의 평균의 차이가 없다.p-value : 유의수준0.05보다 작을 때 : 가설이 지지되지 않음0.05보다 클 때 : 결론 유보신뢰구간에 0이 미포함 : 가설이 지지되지 않음카이제곱 test두 집단 간의 비율을 비교할 때 사용하는 통계 검증통계값의 해석p-value가 0.05보다 작을 때, 카이제곱 통계량이 점점 커진다.결과해석 예시 : a, b 광고의 클릭률이 같지 않다 / b 광고의 클릭률이 더 높다.

데이터분석을 위한 기초 통계3

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의검정의 종류1.무엇을 비교하냐(1)연속형(평균)집단에 따라-2개 집단 (t검정): 독립표본 (별개의 집단): 대응표본 (짝)-3개 이상 집단 (분산분석)(2) 순서형mwu (독립표본)윌콕슨 (대응표본)(3) 범주형(비율)카이제곱 (기댓값)-적합도-독립성 (독립표본)-맥니마 (쌍으로)검정의 종류마다 언제 사용하는지독립표본 t 검정 : 두 집단의 평균 비교대응표본 t 검정 : 두 집단의 자료를 쌍으로 묶을 수 있을 때, 차이의 평균을 비교 (짝보다 많냐,적냐)맨-휘트니 U 검정 : 두 집단의 순서형 변수를 비교 (순서가 골고루 섞여있는가), 데이터가 적거나 분포가 찌그러졌거나 극단값있을 때 t검정 대신에 쓸 ..

데이터분석을 위한 기초 통계2

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의단순 무작위 표집(simple random sampling) : 모든 사례를 동일 확률로 추출계통 표집 (systematic sampling)-첫 번째 요소는 무작위로 선정한 후, 목록의 매번 k번째 요소를 표본으로 선정-ex) 선거 출구 조사시, 나오는 사람 7번쨰마다 질문-ex) DB에서 쌓이는 거에서 k번째마다 추출층화 표집 (stratified random sampling)-모집단을 이루는 각 계층별로 무작위 추출-ex) 여론조사 : 지역별, 연령별, 성별로 나누어 추출-남,녀의 연령별로만 하면 특정 집단에서 조사가 안 될수도 있으니... 비율이 채워질때까지 조사를 계속함집락 표집 (cluster ..

데이터분석을 위한 기초 통계1

멋쟁이사자처럼 AI스쿨 기초 통계 강의 내용을 정리한 포스팅입니다.참고자료 : 마인드스케일 통계 강의[1교시]Q.통계를 왜 배워야 하나?전문가 판단보다 낫기 때문에 (일관성이 높음)[전문가 판단 vs. 통계적 예측]임상적 예측 대 통계적 예측 : 증거의 이론적 분석과 검토 / Paul Meehl (1954년) / 통계적 예측이 더 정확하다.-그로브 등 136개 연구에서 통계적 예측이 더 정확-루이스 골드버그 : 전문가를 예측하는 모형이 전문가 자신보다 정확-통계적 모델 (전문가가 내린 판단을 예측) 연구-전문가의 판단은 내부적, 외부적 잡음 (전문가의 능력을 떨어뜨림)에 영향을 받는다. / 비일관성ex) 네이버에 합격할지 예측하는 모형 : 통계 예측으로는 합격해야 하는데, 면접관은 불합격을 줌, 실제로 ..

[2023.05.09] 쿠버네티스 Session 2

클러스터클라우드 ?서버?랙 마운트 서버 (Rack Mount)Blade네트워크 1G vs. 10G(한번에 10기가가 지나갈 수 있어...!)CAPEX (Capital)OPEX 서버를 회사 내에 보유하다가, 인터넷이 나옴 !url, DNS 등...이제 서버를 회사 내에 구비하지 않아도 됨데이터센터 (Rack에 서버들이 들어있음. 이걸 서버로 빌려서 쓴다 ~)1.Iaas 데이터센터에 있는 서버를 빌린다.2.PaaS OS 선택, EC2, VM3.Saas 시스템 다 깔아놓고 로그인만 해서 써라.Managed Servies쿠버네티스는 클러스터 (클러스터 안에는 노드가 있다)스케쥴러서비스 (ip table, net fillter => 중간에서 ip 보내주는...)API server(가려져 있다. 볼 수 없음)CNI..

[2023.02.24] Kubernetes session1 (기본 개념 정리)

What is Kubernetes?쿠버네티스란 ?Container Orchestration Tool알아서 컨테이너를 관리해주고, 알아서 장애를 막아주고, 알아서 가장 효율적으로 리소스를 관리/실행해주는 컨테이너 관리 툴참고자료https://github.com/kubernetes/kubernetes/blob/master/logo/logo.svghttps://kubernetes.io/docs/home/https://pyrasis.com/jHLsAlwaysUpToDateKuberneteshttps://youtu.be/HNGEo7Kd3_k

[Docker] 기본 개념 정리

What is Container?Container 기술이란VM (Virtual Machine) : 자신의 컴퓨터나 서버에 여러 개의 서버를 생성하고자 할 때, 여러 개의 VM을 띄워야 함.여러 개의 서버를 생성할 경우, 리소스 사용량을 가볍게 만드는 방법을 찾게 됨그 결과 Container Engine들이 등장하게 됨ex) container d, docker, cri-o Container 기술의 특징이동성, 배포 편의성 (개발 및 환경 차이(ex: 버전 차이에 따른 오류)에 따른 변화 대응에 편의)가벼운 가상화 기술 (Guest OS의 부재로 자원의 효율성 증가)장점 : 자원 효율성 증가, OS 기동 시간 감소단점 : Host OS와 다른 Container 생성 불가, 보안 위험성 증가 What is D..

[2023.02.13] DB, DBMS, NOSQL 기초 개념 정리

DBDataBase (데이터 저장소)여러 사람이 공유할 목적으로 데이터를 구조화하고 저장하기위해 사용되는 시스템특징트랜잭션 처리를 위해 설계됨데이터베이스가 수행하는 여러개의 작업을 하나로 묶은 실행 단위[DB기초] 트랜잭션이란 무엇인가?주로 특정 애플리케이션의 데이터 저장과 관리에 사용일반적으로 관계형 데이터베이스(RDBMS)를 사용하며, SQL을 사용하여 데이터를 관리하고 검색DBMSDatabase Management System (데이터베이스 관리 시스템)데이터베이스를 관리하고 운영하는 소프트웨어대표적으로 MySQL, 오라클(Oracle), SQL 서버, MariaDB 등이 있음RDBMSRelational DBMS (관계형 데이터베이스)대부분 DBMS가 RDBMS 형태로 사용됨테이블(table)이라는..

Tech/DBMS 2024.12.11

[Deep Learning] Transformer: Attention Is All You Need 요약

자연어 처리 딥러닝 모델Seq2Seq한계점RNN 기반 모델 : 시퀀스 데이터를 처리할 때 시간 축으로 순차적으로 처리하면서 hidden state에 시퀀스의 정보를 담아가기 때문에 시간에 따라 오래된 정보가 일부 소실될 수 있다는 문제가 있음. (vanishing gradient problem)CNN 기반 모델 : 입력 데이터에 대해 고정된 크기의 필터를 적용하는 구조이기 때문에 입력 데이터의 길이나 구조가 다양한 경우 처리에 제약이 있음. (자연어 처리 분야에서 입력 데이터의 길이나 구조가 다양한 경우가 많음)Transformer현대의 자연어 처리 네트워크에서 핵심Attention 기법만 잘 활용해도 자연어 처리 task에서 좋은 성능을 얻을 수 있다.RNN이나 CNN을 전혀 필요로 하지 않음. 1...