분류 전체보기 38

[ggplot2/gganimate] 한국콘텐츠진흥원 통계자료 시각화

1.데이터 로드출처 : 한국콘텐츠진흥원_2022년 기준 콘텐츠산업조사# 구분자가 "|"인 텍스트 파일 읽기df ## 'data.frame': 55 obs. of 5 variables:## $ 산업 : chr "출판" "출판" "출판" "출판" ...## $ 연도 : int 2018 2019 2020 2021 2022 2018 2019 2020 2021 2022 ...## $ 사업체수 : int 24995 25220 25244 34011 34652 6628 6607 6144 4919 5004 ...## $ 매출액.백만원.: int 20953772 21341176 21648849 24697753 25191702 1178613 1337248 153..

Apache Hadoop, Spark, Kafka, Airflow 기본 개념

Big data technologies출처 : https://www.linkedin.com/pulse/100-open-source-big-data-ml-architecture-papers-sequel-anil-madan/Apache 소프트웨어 재단이란?ChatGPT의 답변아파치 소프트웨어 재단(Apache Software Foundation, ASF)은 오픈소스 소프트웨어를 개발, 유지보수, 관리하는 비영리 단체입니다. 아파치 소프트웨어 재단은 1999년에 설립되었으며, 오픈소스 프로젝트의 개발과 커뮤니티 활동을 지원하고 이를 통해 다양한 소프트웨어를 제공합니다.ASF는 전 세계적인 개발자들과 기업들의 참여를 유도하고, 오픈소스 프로젝트의 개발과 유지보수를 위한 인프라 및 지원을 제공합니다. ASF의 목..

[AI School-TIL] SQL(BigQuery) 7일차_23.02.10

배웠던 내용 총정리 -distinct : 중복 제거 (group by하지 않아도 연도별 중복 제거를 해서 볼 수 있음)-where : 조건을 부여해서 원하는 데이터만 구해 옴 (필터처럼)-연산연산자 사용 가능논리 연산 (and, or, not) -> ()괄호를 묶어서 사용 가능between A and B : A와 B를 포함한 사이의 값in A : A 안에 값과 일치하는 값을 조회 (서브쿼리를 써서 조회하기 원하는 브랜드를 불러올 때 사용)like '비교문자' : %(와일드카드), 대소문자를 안 가림, 언더바는 글자의 수를 비교is null : null이라는 아무 것도 없는 값 (0은 값이 있는 것). is를 통해서만 연산 (=, !=은 사용 안 됨)-집계함수, group bycount : count(*)..

[AI School-TIL] SQL(BigQuery) 6일차_23.02.03

[데이터 집계하기 2]rollup : 전체 집계를 구한 다음에, 각 단계에 따른 소계를 해주는 기능 select country, count(id) as count_userfrom `thelook_ecommerce.users`group by rollup(country);  #연습문제 11-1#회원(users) 테이블에서 연령대 별 성별의 소계 및 합계를 조회#일의 자리를 버림 (trunc는 내림)select trunc(age, -1) || '대' as age_group, gender, count(id) as user_countfrom `thelook_ecommerce.users`group by rollup(age_group, gender)order by age_group, gender windo..

[AI School-TIL] SQL(BigQuery) 5일차_23.01.27

Q. JOIN vs UNION ?-join은 테이블 간의 결합-union은 조회 결과를 위아래(세로방향)으로 합치는 것 (필드는 확장되지 않음) [오늘 진도]JOIN이랑 조건문 문제 이어서 풀기 !#날짜포맷 함수 차이#BigQuerySELECT FORMAT_DATE('%Y-%m-%d', DATE '2008-12-25') ;#MySQLSELECT DATE_FORMAT('2009-10-04 22:23:00', '%Y-%m-%d'); 연습문제### SQL 연습문제 8-6#주문상품(order_items) 테이블과 상품정보(products) 테이블을 이용하여 #주문한 상품의 브랜드 별 평균판매가격(brand_avg_sale_price)을 조회하시오.#- 조회 항목# - 브랜드(brand)# - 브랜드 ..

[AI School-TIL] SQL(BigQuery) 4일차_23.01.26

[오늘 진도]조건문case / end -조건을 시작하고, 닫는 것을 먼저 해놓는 습관을 들이는 게 좋다.when then / elseselect order_id, user_id, status, case when status = 'Shipped' then '배송됨' when status = 'Complete' then '완료됨' when status = 'Returned' then '반품됨' when status = 'Cancelled' then '취소됨' when status = 'Processing' then '처리중' else '기타' end as status_textfrom `thelook_ecommerce.orders`order by order_id# ..

[AI School-TIL] SQL(BigQuery) 3일차_23.01.25

[오늘 진도]소수점 처리round : 반올림trunc : 버림mod : 나머지power : 제곱sqrt : 제곱근select round(100.56789,3)select trunc(178.56789,-2)select mod(10,3)select power(10,3)select sqrt(10) 문자열 함수substr(문자열, 시작 위치, 길이) : 문자열 일부만 가져오기-길이를 빼면 시작 위치부터 끝까지 다 출력됨left(문자열, 길이)right(문자열, 길이)concat : 문자열 합치기 ( '||'를 사용해서도 결합 가능)lower : 소문자로 변환upper : 대문자 변환initcap : 첫번째 문자만 대문자로 변환replace : 원하는 문자 찾아서 바꾸기length : 문자 길이instr : 특정..

[AI School-TIL] SQL(BigQuery) 2일차_23.01.20

[지난 시간 복습]group by# 국가별로 몇명인지select country, count(id)from `thelook_ecommerce.users`group by country;# 국가별, 도시별 몇명인지select country, city, count(id) from `thelook_ecommerce.users` group by country, city;[오늘 진도]#연습문제 4-1#회원(users) 테이블에서 전체 유저의 평균연령을 조회하세요.#2)무엇을 가져오는지select avg(age) as avg_age#1) 어디에서from `thelook_ecommerce.users`;#연습문제 4-2#회원(users) 테이블에서 여성 유저의 평균연령을 조회하세요.select avg(age)from ..

[AI School-TIL] SQL(BigQuery) 1일차_23.01.13

SQL문 - 구글 빅쿼리를 이용해서 실습하기.축약한 데이터, 집계 데이터를 그때그때 테이블로 만들 수 있다.실행 단축키윈도우 : control + 엔터맥 : command + 엔터' ; '로 문장이 끝났음을 표시SQL 작성 시, 대문자로 하는 게 관행이나, 결과가 나오는 데 크게 관계가 없다.보통은 테이블명만 입력하는 게 관행임.select: 데이터를 조회하는 명령어/ 간단한 산술 연산자 ( +, -, *, / )도 쿼리 결과로 나옴/ 문자열도 나옴( + 연산자는 안 됨 -> 함수를 사용해야 함): from 뒤에 어디 테이블에서 가져오는지 먼저 작성하는 게 좋다.# 1) 어디서?select first_name, last_name from `thelook_ecommerce.users`;# 전체 테이블 조..

[2023.03.24] MLOps 개념 및 활용 사례 정리

What is MLOps?MLOpsMachine Learning Operations의 약어연구소에 머물고 있는 머신러닝 모델들을 실제 비지니스 환경(복잡하고 예측이 어려운 환경)에 운영하기 위한 기술들MLOps의 필요성ML Model을 실제 비지니스 환경으로 적용할 때 문제점Model : 어떤 데이터를 넣으면, 어떤 결과가 나올 것인지를 규정하는 시스템을 의미한다.ML Modeling 과정에서는 아이디어를 검증하기 위해 예측 정확도가 중요하고, 많은 가정하에서 데이터를 학습하게 됨실제 비지니스 환경에서는 굉장히 많은 복잡성과 불확실성이 있음 (서비스 안전성이 중요해짐)특히 자원의 경우 모델이 좋아도 1개의 모델이 초당 고가의 GPU를 사용하게 된다면 서비스 양을 장담할 수 없게 됨사용자의 트렌드에 따라 ..

Tech/MLOps 2024.12.11