2024/12 19

Apache Hadoop, Spark, Kafka, Airflow 기본 개념

Big data technologies출처 : https://www.linkedin.com/pulse/100-open-source-big-data-ml-architecture-papers-sequel-anil-madan/Apache 소프트웨어 재단이란?ChatGPT의 답변아파치 소프트웨어 재단(Apache Software Foundation, ASF)은 오픈소스 소프트웨어를 개발, 유지보수, 관리하는 비영리 단체입니다. 아파치 소프트웨어 재단은 1999년에 설립되었으며, 오픈소스 프로젝트의 개발과 커뮤니티 활동을 지원하고 이를 통해 다양한 소프트웨어를 제공합니다.ASF는 전 세계적인 개발자들과 기업들의 참여를 유도하고, 오픈소스 프로젝트의 개발과 유지보수를 위한 인프라 및 지원을 제공합니다. ASF의 목..

[AI School-TIL] SQL(BigQuery) 7일차_23.02.10

배웠던 내용 총정리 -distinct : 중복 제거 (group by하지 않아도 연도별 중복 제거를 해서 볼 수 있음)-where : 조건을 부여해서 원하는 데이터만 구해 옴 (필터처럼)-연산연산자 사용 가능논리 연산 (and, or, not) -> ()괄호를 묶어서 사용 가능between A and B : A와 B를 포함한 사이의 값in A : A 안에 값과 일치하는 값을 조회 (서브쿼리를 써서 조회하기 원하는 브랜드를 불러올 때 사용)like '비교문자' : %(와일드카드), 대소문자를 안 가림, 언더바는 글자의 수를 비교is null : null이라는 아무 것도 없는 값 (0은 값이 있는 것). is를 통해서만 연산 (=, !=은 사용 안 됨)-집계함수, group bycount : count(*)..

[AI School-TIL] SQL(BigQuery) 6일차_23.02.03

[데이터 집계하기 2]rollup : 전체 집계를 구한 다음에, 각 단계에 따른 소계를 해주는 기능 select country, count(id) as count_userfrom `thelook_ecommerce.users`group by rollup(country);  #연습문제 11-1#회원(users) 테이블에서 연령대 별 성별의 소계 및 합계를 조회#일의 자리를 버림 (trunc는 내림)select trunc(age, -1) || '대' as age_group, gender, count(id) as user_countfrom `thelook_ecommerce.users`group by rollup(age_group, gender)order by age_group, gender windo..

[AI School-TIL] SQL(BigQuery) 5일차_23.01.27

Q. JOIN vs UNION ?-join은 테이블 간의 결합-union은 조회 결과를 위아래(세로방향)으로 합치는 것 (필드는 확장되지 않음) [오늘 진도]JOIN이랑 조건문 문제 이어서 풀기 !#날짜포맷 함수 차이#BigQuerySELECT FORMAT_DATE('%Y-%m-%d', DATE '2008-12-25') ;#MySQLSELECT DATE_FORMAT('2009-10-04 22:23:00', '%Y-%m-%d'); 연습문제### SQL 연습문제 8-6#주문상품(order_items) 테이블과 상품정보(products) 테이블을 이용하여 #주문한 상품의 브랜드 별 평균판매가격(brand_avg_sale_price)을 조회하시오.#- 조회 항목# - 브랜드(brand)# - 브랜드 ..

[AI School-TIL] SQL(BigQuery) 4일차_23.01.26

[오늘 진도]조건문case / end -조건을 시작하고, 닫는 것을 먼저 해놓는 습관을 들이는 게 좋다.when then / elseselect order_id, user_id, status, case when status = 'Shipped' then '배송됨' when status = 'Complete' then '완료됨' when status = 'Returned' then '반품됨' when status = 'Cancelled' then '취소됨' when status = 'Processing' then '처리중' else '기타' end as status_textfrom `thelook_ecommerce.orders`order by order_id# ..

[AI School-TIL] SQL(BigQuery) 3일차_23.01.25

[오늘 진도]소수점 처리round : 반올림trunc : 버림mod : 나머지power : 제곱sqrt : 제곱근select round(100.56789,3)select trunc(178.56789,-2)select mod(10,3)select power(10,3)select sqrt(10) 문자열 함수substr(문자열, 시작 위치, 길이) : 문자열 일부만 가져오기-길이를 빼면 시작 위치부터 끝까지 다 출력됨left(문자열, 길이)right(문자열, 길이)concat : 문자열 합치기 ( '||'를 사용해서도 결합 가능)lower : 소문자로 변환upper : 대문자 변환initcap : 첫번째 문자만 대문자로 변환replace : 원하는 문자 찾아서 바꾸기length : 문자 길이instr : 특정..

[AI School-TIL] SQL(BigQuery) 2일차_23.01.20

[지난 시간 복습]group by# 국가별로 몇명인지select country, count(id)from `thelook_ecommerce.users`group by country;# 국가별, 도시별 몇명인지select country, city, count(id) from `thelook_ecommerce.users` group by country, city;[오늘 진도]#연습문제 4-1#회원(users) 테이블에서 전체 유저의 평균연령을 조회하세요.#2)무엇을 가져오는지select avg(age) as avg_age#1) 어디에서from `thelook_ecommerce.users`;#연습문제 4-2#회원(users) 테이블에서 여성 유저의 평균연령을 조회하세요.select avg(age)from ..

[AI School-TIL] SQL(BigQuery) 1일차_23.01.13

SQL문 - 구글 빅쿼리를 이용해서 실습하기.축약한 데이터, 집계 데이터를 그때그때 테이블로 만들 수 있다.실행 단축키윈도우 : control + 엔터맥 : command + 엔터' ; '로 문장이 끝났음을 표시SQL 작성 시, 대문자로 하는 게 관행이나, 결과가 나오는 데 크게 관계가 없다.보통은 테이블명만 입력하는 게 관행임.select: 데이터를 조회하는 명령어/ 간단한 산술 연산자 ( +, -, *, / )도 쿼리 결과로 나옴/ 문자열도 나옴( + 연산자는 안 됨 -> 함수를 사용해야 함): from 뒤에 어디 테이블에서 가져오는지 먼저 작성하는 게 좋다.# 1) 어디서?select first_name, last_name from `thelook_ecommerce.users`;# 전체 테이블 조..

[2023.03.24] MLOps 개념 및 활용 사례 정리

What is MLOps?MLOpsMachine Learning Operations의 약어연구소에 머물고 있는 머신러닝 모델들을 실제 비지니스 환경(복잡하고 예측이 어려운 환경)에 운영하기 위한 기술들MLOps의 필요성ML Model을 실제 비지니스 환경으로 적용할 때 문제점Model : 어떤 데이터를 넣으면, 어떤 결과가 나올 것인지를 규정하는 시스템을 의미한다.ML Modeling 과정에서는 아이디어를 검증하기 위해 예측 정확도가 중요하고, 많은 가정하에서 데이터를 학습하게 됨실제 비지니스 환경에서는 굉장히 많은 복잡성과 불확실성이 있음 (서비스 안전성이 중요해짐)특히 자원의 경우 모델이 좋아도 1개의 모델이 초당 고가의 GPU를 사용하게 된다면 서비스 양을 장담할 수 없게 됨사용자의 트렌드에 따라 ..

Tech/MLOps 2024.12.11

[데이터 분석 통계] A/B Test Summary

A/B Test란?두 가지 대안의 효과에 대한 비교를 하는 것통계적 검증 방법으로는 t-test, 카이제곱 검증이 있음t-test두 집단 간의 평균을 비교할 때 사용되는 통계 검증t-test 종류두 개의 집단 간 비교같은 집단 비교유의수준, 신뢰구간t-test 기본 가설 : 두 집단 간의 평균의 차이가 없다.p-value : 유의수준0.05보다 작을 때 : 가설이 지지되지 않음0.05보다 클 때 : 결론 유보신뢰구간에 0이 미포함 : 가설이 지지되지 않음카이제곱 test두 집단 간의 비율을 비교할 때 사용하는 통계 검증통계값의 해석p-value가 0.05보다 작을 때, 카이제곱 통계량이 점점 커진다.결과해석 예시 : a, b 광고의 클릭률이 같지 않다 / b 광고의 클릭률이 더 높다.