๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Engineering8

๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ๋…ธ๋งˆ๋“œ์ฝ”๋” ํด๋ก ์ฝ”๋”ฉ Roadmap: https://nomadcoders.co/roadmap Python์œผ๋กœ ์›น ์Šคํฌ๋ž˜ํผ ๋งŒ๋“ค๊ธฐ (๋ฌด๋ฃŒ): https://nomadcoders.co/python-for-beginners Airbnb ํด๋ก ์ฝ”๋”ฉ: https://nomadcoders.co/airbnb-clone Python ์›น ์Šคํฌ๋ž˜ํผ๋กœ ํฅ๋ฏธ ๋‹์šฐ๋ฉด์„œ ์›น ํฌ๋กค๋ง ์‹œ์ž‘ํ•ด๋„ ๊ดœ์ฐฎ์„ ๊ฒƒ ๊ฐ™์Œ (๋ฐ์ดํ„ฐ ์ชฝ) ์žฌ๋ฏธ ์œ„์ฃผ๋กœ Full-stack ์„œ๋น„์Šค ๊ฒฝํ—˜ํ•ด๋ณด๋ ค๋ฉด ํด๋ก ์ฝ”๋”ฉ์ด ๊ดœ์ฐฎ์„ ๊ฒƒ ๊ฐ™์Œ ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค ์‹ค๋ฆฌ์ฝ˜๋ฐธ๋ฆฌ์—์„œ ๋‚ ์•„์˜จ ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ์Šคํƒ€ํ„ฐ ํ‚คํŠธ with Python (6๋งŒ์›) https://programmers.co.kr/learn/courses/12916#introduction 6์ฃผ๊ฐ„ ์ง„ํ–‰๋˜๋Š” ์Šคํ„ฐ๋””๋กœ ์˜จ๋ผ์ธ ๋ฏธํŒ….. 2021. 12. 20.
GPDB (vs. PostgreSQL, Architecture, Query) #Greenplum_Database [1] GPDB vs. PostgreSQL - GPDB๋Š” PostgreSQL์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” MPP* DBMS์ž„ (PostgreSQL์€ SMP*) - ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋””์Šคํฌ ๊ธฐ๋ฐ˜ DB ์ธ์Šคํ„ด์Šค๋“ค์ด ํ•˜๋‚˜์˜ DBMS์ฒ˜๋Ÿผ ์ž‘๋™ํ•จ (๋ถ„์‚ฐ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ) - SQL ์ง€์›, ํŠน์ง•, Config ์˜ต์…˜, ์‚ฌ์šฉ์ž ๊ธฐ๋Šฅ ์ธก๋ฉด์€ PostgreSQL๊ณผ ๋งค์šฐ ๋น„์Šทํ•จ - GPDB๊ฐ€ PostgreSQL์— ๋น„ํ•ด ์ถ”๊ฐ€ ์ง€์›ํ•˜๋Š” ๊ธฐ๋Šฅ๋“ค์€... . Postgres Planner ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ GPORCA๋„ ์ฟผ๋ฆฌ ํ”Œ๋ž˜๋‹์— ์‚ฌ์šฉ . ์‹œ์Šคํ…œ ์นดํƒˆ๋กœ๊ทธ, Optimizer, ์ฟผ๋ฆฌ ์‹คํ–‰๊ธฐ, ํŠธ๋žœ์ ์…˜ ๋งค๋‹ˆ์ € ์ˆ˜์ •/๊ฐ•ํ™” (for ๋ณ‘๋ ฌ ๊ตฌ์กฐ) . ์™ธ๋ถ€ ํ…Œ์ด๋ธ” ๋ณ‘๋ ฌ ๋กœ๋”ฉ, ์ž์› ๊ด€๋ฆฌ, ์ฟผ๋ฆฌ ์ตœ์ ํ™”, ์Šคํ† ๋ฆฌ์ง€ ๊ฐ•ํ™” (Append-O.. 2021. 5. 16.
True/False Positive/Negative ์ •๋ฆฌ ์ธ๊ณต์ง€๋Šฅ๊ฐœ๋ก  ๋“ค์„ ๋• ๋ฐ”๋กœ ์ดํ•ดํ–ˆ๋˜ ๊ฐœ๋…์ธ๋ฐ ์ด๋ฒˆ์— ์กธ์ž‘ํ•˜๋ฉด์„œ ๋‹ค์‹œ ์ฐพ์•„๋ณด๋‹ˆ ์™ ์ง€ ์ดํ•ด๊ฐ€ ์•ˆ ๋์—ˆ๋˜... ๋น…๋ฐ์ดํ„ฐ ์ˆ˜์—… ๋“ฃ๋‹ค๊ฐ€ ๋˜ ๋‚˜์™”๋Š”๋ฐ ๋‹คํ–‰ํžˆ ์ดํ•ด๋˜์„œ ์ •๋ฆฌํ•ด๋‘”๋‹ค. True Positive False Positive True Negative False Negative ๋„ค ๊ฐœ๋…์€ ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์— ๋”ฐ๋ผ ๊ณ„์‚ฐํ•˜๋ฉฐ, ๋’ค์—์„œ๋ถ€ํ„ฐ ํ•ด์„ํ•œ๋‹ค. Positive์™€ Negative๋Š” ์˜ˆ์ธก๊ฐ’์ด ๊ธฐ์ค€ ๋ ˆ์ด๋ธ”๊ณผ ๊ฐ™์€์ง€ (์˜ˆ์ธก๊ฐ’ == ๊ธฐ์ค€๊ฐ’?) ์—ฌ๋ถ€์— ๋”ฐ๋ผ ๊ฒฐ์ •๋˜๊ณ  True์™€ False๋Š” ๊ทธ๋ž˜์„œ ๊ทธ ์˜ˆ์ธก์ด ๋งž์•˜๋Š”์ง€ (์˜ˆ์ธก๊ฐ’ == ์‹ค์ œ๊ฐ’?) ์—ฌ๋ถ€์— ๋”ฐ๋ผ ๊ฒฐ์ •๋œ๋‹ค. ๊ฐ€๋ น 0๊ณผ 1 ๋‘ ๊ฐ€์ง€์˜ ๋ ˆ์ด๋ธ”์— ๋Œ€ํ•˜์—ฌ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ’€์—ˆ๊ณ , ๋ ˆ์ด๋ธ” 0์— ๋Œ€ํ•˜์—ฌ TP, FP, TN, FN์„ ๊ณ„์‚ฐํ•œ๋‹ค๊ณ  ํ•˜์ž. True Positive๋Š” ์˜ˆ์ธก.. 2020. 5. 7.
Spark/Hadoop ์ด์šฉํ•  CentOS VM ์„ธํŒ…ํ•˜๊ธฐ CentOS์—์„œ Spark์™€ Hadoop์„ ์ด์šฉํ•ด ๋น…๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๋Š” ์‹ค์Šต์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ... VM์„ ์„ธํŒ…ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์ •๋ฆฌํ•œ๋‹ค. ๋Œ์•„๋ณด๋ฉด ๋ณ„ ๊ฑฐ ์•„๋‹Œ๋ฐ ํ•˜๋ฃป๋ฐค์„ ์ƒˆ๊ณ  ๋‚˜์„œ์•ผ ์•Œ๊ฒŒ ๋˜์—ˆ๋‹ค. ๋ฏธ๋ฆฌ ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜์ž๋ฉด.. RAM=4GB, Disk=20GB์ด์ƒ, Cores=8๋กœ VM์„ ์„ธํŒ…ํ•˜์ž. (Cores๋Š” Multi-threading ์ด์šฉํ•  ๊ฒฝ์šฐ) VMWare ์‚ฌ์‹ค Window์—์„œ ์‹ค์Šต์„ ์ง„ํ–‰ํ•ด๋„ ๋๋Š”๋ฐ, Linux ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ด๋ณด๋Š”๊ฒŒ ๋‚ซ์ง€ ์•Š์„๊นŒ ์‹ถ์–ด์„œ VM์— CentOS๋ฅผ ์˜ฌ๋ฆฌ๊ธฐ๋กœ ํ–ˆ๋‹ค. (CentOS๋Š” ์ฒ˜์Œ ์จ๋ณด๋Š” ๊ฑฐ๊ธฐ๋„ ํ•˜๊ณ ..) ์ต์ˆ™ํ•œ VirtualBox๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๊ณ  ํ–ˆ๋Š”๋ฐ.. ์ด์ƒํ•˜๊ฒŒ (๋ช‡ ๋‹ฌ ์ „๋ถ€ํ„ฐ?) VM์ด ์‹œ์ž‘์ด ์•ˆ ๋˜๊ณ  ์˜ค๋ฅ˜๊ฐ€ ์žˆ์–ด์„œ ๊ฒฐ๊ตญ ํฌ๊ธฐํ–ˆ๋‹ค. ๋ฐœ์ƒํ•œ ์˜ค๋ฅ˜๋Š” ์—ฌ๊ธฐ์„œ ๋‚œ ์˜ค๋ฅ˜๋ž‘ ๊ฐ™์€.. 2020. 4. 16.