Machine Learning není magie. Je to matematika, data a hodně experimentování. Sdílíme naše zkušenosti z prvních ML projektů.
scikit-learn pro 80 % problémů¶
V roce 2020 máte tři hlavní volby: scikit-learn (klasické ML), TensorFlow (deep learning od Googlu) a PyTorch (deep learning od Facebooku). V praxi 80 % problémů vyřeší klasické algoritmy — Random Forest, XGBoost, logistická regrese. Deep learning jen pro NLP a computer vision.
První projekt: predikce churnu¶
Telco klient, 500K zákazníků, 47 features, 18 měsíců historie. XGBoost vyhrál s AUC 0.87. Strávili jsme 70 % času na datech — čištění, feature engineering. Nejlepší zlepšení přišlo z lepších features, ne z lepšího algoritmu.
Co nás překvapilo¶
Produkční deployment je těžký. Jupyter notebook → produkce s monitoringem a verzováním je úplně jiná disciplína. Vysvětlitelnost — klient chtěl vědět nejen „kdo odejde”, ale „proč”. Přidali jsme SHAP pro interpretaci.
ML není rocket science — ale ani trivialita¶
scikit-learn, kvalitní dataset a základní statistika vás dostanou daleko. Ale produkční ML systém je komplexní — o tom budeme psát dál.