资料处理的方法
處理資料遺缺的現象,可採用人工來填補 範例
當某會員資料的生日屬性有遺缺,可打電話詢問 該會員,以取得其生日並加以填補。
缺點
當資料遺缺較多時,耗時且人力負擔沉重。
14
資料遺缺處理方法-自動填補法
主要兩種方式
填入一個通用的常數值
如填入 “未知/unknown” ,成為一個新的類別
填入該屬性的整體帄均值
不會對統計結果造成太大的影響 不影響統計結果的情況下,保留此資料屬性 缺點是不夠客觀
更精確作法是用推論法求出較可能的值來填入
方法基本上有兩種,一種是貝式方程式 (Bayesian formu
第三章 資料前置處理
資料一般化(data generalization)
資料的概念階層 (concept hierarchy) 向上提升
會員地址用城市或是北中南東四區取代
資料精簡的方法之一
建立新屬性(attribute construction)
利用舊屬性將探勘所需的新屬性建立
10
第三章 資料前置處理
簡介 資料前置處理的主要工作
7
資料清理 (2)
確認資料完整性
常見的資料完整性問題:
檢查內容 說明
是否缺少探勘所需 例如:當我們想要探勘顧客年齡與購買商品種類的關係 的屬性 是否只包含統計整 時,卻發現資料庫中並未包含年齡這個屬性。 例如:當我們想要分析某網站的瀏覽率以了解一天當中哪
一個時段最多人拜訪這個網站時,卻發現該網站每天只有 合過的資訊,而缺少 記錄一筆當天的總瀏覽人次,而缺少每個小時的瀏覽人次 詳細的單筆資料 資料。
簡介 資料前置處理的主要工作
遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結
16
雜訊的處理方法
結合電腦和人工檢視
結合電腦偵測與人工檢視
資料帄緩化處理
回歸分析法 (regression analysis)
將資料套入回歸函數以消除雜訊
8
資料清理 (3)
其它清理工作
遺缺填補:人工填補或自動填補 雜訊消除:雜訊使探勘結果有相當大的偏差, 必須將雜訊移除或將資料做帄緩化處理
(smoothing)
9
資料轉換
資料統整(data aggregation)
加總、統計或是建立資料方塊(data cube) 將資料做初步整理,使得資料更適合探勘
資料有雜訊 (noise)
資料有錯誤或是特例(outlier)造成
資料不一致 (data inconsistency)
由不同來源整合而得所產生
商品在台灣是以台幣,在美國則是美金計價
有高品質的資料,才有高品質的探勘結果
3
第三章 資料前置處理
簡介 資料前置處理的主要工作
遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結
第三章 資料前置處理
1
第三章 資料前置處理
簡介 資料前置處理的主要工作 遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結
2
資料未經處理的問題
資料不完整 (data incomplete)
資料中某些屬性值有遺缺 缺少某些分析時需要用到的屬性
12
資料遺缺處理方法-直接忽略法
處理資料遺缺最簡單的方法 適用時機
進行分類探勘時,若資料的分類標記 (class label) 為空值,這筆資料因無法被正確分類,便可直接 刪除
適用對象
蒐集資料量很多、遺缺資料只佔一小部分
缺點
資料遺缺比例很可觀時,會造成大量資料流失
13
資料遺缺處理方法-人工填補法
裝箱法 (binning method)
將資料排序並切割成數個箱子 用帄均值、中位數或邊界值來取代箱子中的每一筆 資料以消除雜訊
17
裝箱法 - 等寬分割法
等寬分割法(或稱等距分割法,Equal Width/Distance)
將資料的數值範圍劃分為N 個間隔相同的區間 若A和B分別為此屬性中的最小與最大值,則每個區間的間 隔大小為:W = (B-A)/N. 假設將12樣商品的價格資料排序如下: 12, 15, 18, 21, 28, 33, 36, 45, 50, 52 , 60 , 80 欲分割為四個箱子則箱子寬度=(80-12)/4=17
4
前置處理的主要工作
資料整合
資料清理
資料轉換
整合後 的資料
清理過 的資料
準備進行探 勘的資料
各種不同來 源的資料
5
資料整合
資料整合 (data integration)
解決多重資料來源的整合問題
主要工作
消除資料不一致
數值不一致 (data value conflict) 綱目不一致 (schema conflict)
消除資料重複性
數值重複 綱目重複
6
資料清理 (1)
確認資料正確性、完整性
常見的資料正確性問題
檢查內容 說明 介於 1 和 12 之間。 例如:身分證字號或是顧客編號不可有重複。
屬性的有效值或有 例如:性別屬性的值不是男性就是女性;生日的月份應該 效範圍 數值的唯一性 參考完整性
例如:存在於訂單資料表中的會員編號必須同時存在於會 (referential integrity) 員資料表中。 資料的合理性驗證 例如:從會員的生日計算出該會員的年齡只有 10 歲,但是 該會員所填寫的學歷卻是博士,顯然不合理。
遺缺填補法 雜訊去除法 資料正規化 資料形式轉換* 資料型態轉換* 資料模糊化** 總結
11
資料遺缺原因
資料建立時未輸入
故意或是不小心造成資料沒有被輸入
設備故障
例如收銀機故障,導致顧客消費明細無法輸入
因資料內容不一致而被刪除
當資料內容不一致時,為了避免錯誤的資料影 響分析的準確性,可能會將該項資料以空值取 代,因此產生資料的遺缺
箱子 1 (12-28): 12, 15, 18, 21, 28 箱子 2 (29-45): 33, 36, 45 箱子 3 (46-62): 50, 52 , 60 箱子 4 (63-80): 80