- ๐ ํ๋ก์ ํธ ๊ธฐ๊ฐ: 2022.04.18 - 2022.04.29
- ๋์ฉ๋ ๋ฐ์ดํฐ์์์ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถ
- TLC ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ํ์์๊ธ ์์ธก ML ๋ชจ๋ธ๋ง
- ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์คํธ๋ฆผ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- Pandas๋ฅผ ์ด์ฉํด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- scikit-learn์ ์ด์ฉํด ์ ์ฒ๋ฆฌ ์๋ฃ๋ ๋ฐ์ดํฐ๋ก ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ํ์ต
- Kafka Producer๋ฅผ ์ด์ฉํด ๋ฐ์ดํฐ๋ฅผ ์ค์๊ฐ์ผ๋ก ์ ์ก
- Kafka์์ ์ ์ก๋ฐ์ ๋ฐ์ดํฐ๋ฅผ Flink๋ฅผ ์ด์ฉํด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ฃ๊ณ ์ค์๊ฐ์ผ๋ก ์์ธก๊ฐ ์ถ๋ ฅ
- ์ด๋ฒ ํ๋ก์ ํธ๋ ์ฌ์ค ์ด์ ์ spark์ airflow๋ฅผ ์ด์ฉํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ํ๋ก์ ํธ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์์ํ ํ๋ก์ ํธ์๋๋ฐ ์ฌ์ ํ spark์์ ํ์ตํ ๋ชจ๋ธ์ flink์์ ์ค์๊ฐ ๋ฐ์ดํฐ์ ์ ์ฉํ๋๋ฐ ์ด๋ ค์์ ๋๊ปด spark, airflow, kafka, flink ๋ชจ๋๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํฌ๊ธฐํ๊ณ ์ด์ ์ ์ฌ์ฉํด๋ณด์ง ์์ kafka, flink ์์ฃผ์ ํ๋ก์ ํธ๋ฅผ ์งํํ๋ค.
- spark sql๊ณผ spark mllib ๋์ ์ต์ํ pandas์ scikit-learn์ ์ด์ฉํ์ง๋ง flink์์ ๋ณต์กํ ๋ชจ๋ธ์ ์ฌ์ฉํ ์๊ฐ ์์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ ์ ์ ๋งค์ฐ ์์ฝ๋ค. ํ์ง๋ง ์ด๋ฒ ํ๋ก์ ํธ์ ๋ชฉ์ ์ด ์ค์๊ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์คํธ๋ฆผ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ธ ๋งํผ ๋๋ฆ ํ์ดํ๋ผ์ธ ๋จ๊ณ ๊ตฌ์ฑ์ ๋์์ง ์๋ค๊ณ ์๊ฐํ๋ค.
- ํ์ดํ๋ผ์ธ์๋ flink์์ ์์ธกํ ๊ฒฐ๊ณผ๊ฐ์ ์ ์ฅํ๋ค๊ณ ๋์ด์์ง๋ง ๋์ฉ๋ data๊ฐ ์ค์๊ฐ์ผ๋ก ๋ค์ด์ค๊ธฐ ๋๋ฌธ์ ๋น์ฉ, ์ฉ๋ ๋ฌธ์ ๋ก ํด๋ผ์ฐ๋๋ local ํ๊ฒฝ์ ์ ์ฅ ํ ์ ์์๋ค. ์ค์ ์ ๋ฌด์์๋ ์์ธกํ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์๋น์ค๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ์ด ๋ถ๋ถ์ ์ค์ ์ ๋ฌด์ ์ ์ฉ๋๋ค๋ฉด ๋ณด์ ๊ฐ๋ฅํ๋ค๊ณ ์๊ฐํ๋ค.
- ์ถํ์๋ spark, airflow, kafka, flink๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ ํ๋ก์ ํธ๋ฅผ ์๋ฒฝํ๊ฒ ์์ฑํด๋ณด๊ณ ์ถ๋ค๋ ์์ฌ์ด ๋ ๋ค.