400-688-0112
在工業(yè)級(jí)機(jī)器學(xué)習(xí)項(xiàng)目實(shí)施過(guò)程中,數(shù)據(jù)預(yù)處理環(huán)節(jié)往往占據(jù)70%以上的工作量。本課程著重培養(yǎng)以下核心能力:
| 技能模塊 | 技術(shù)要點(diǎn) | 應(yīng)用場(chǎng)景 |
|---|---|---|
| 數(shù)據(jù)清洗 | 缺失值處理/異常值檢測(cè) | 金融風(fēng)控?cái)?shù)據(jù)預(yù)處理 |
| 特征構(gòu)造 | 時(shí)間序列特征/交叉特征 | 電商用戶行為分析 |
| 特征轉(zhuǎn)換 | 標(biāo)準(zhǔn)化/分箱/獨(dú)熱編碼 | 醫(yī)療數(shù)據(jù)特征工程 |
針對(duì)非結(jié)構(gòu)化數(shù)據(jù)特征提取,課程詳細(xì)講解文本向量化處理方法。通過(guò)TF-IDF權(quán)重計(jì)算結(jié)合詞嵌入技術(shù),實(shí)現(xiàn)文檔級(jí)特征表示。
重點(diǎn)解析主成分分析(PCA)在圖像識(shí)別中的應(yīng)用,對(duì)比線性判別分析(LDA)在分類任務(wù)中的特征壓縮效果。通過(guò)Kaggle實(shí)戰(zhàn)數(shù)據(jù)集演示方差閾值法的實(shí)際應(yīng)用。
在特征選擇模塊,課程采用實(shí)際金融數(shù)據(jù)集演示W(wǎng)rapper方法的實(shí)施流程。通過(guò)遞歸特征消除(RFE)技術(shù),構(gòu)建高精度信用評(píng)分模型。
課程采用梯度式教學(xué)設(shè)計(jì),從基礎(chǔ)的缺失值處理技巧,到高級(jí)的特征交叉方法,逐步構(gòu)建完整的數(shù)據(jù)處理知識(shí)體系。通過(guò)銀行客戶流失預(yù)測(cè)項(xiàng)目,實(shí)踐完整的特征工程工作流。