當我們要做機器學習應用時,常會選定一些屬性和一個類別來當資料收集的依據。例如我們現在要研究一公司內人員,會不會買筆記型電腦的情形時,我們可選定「收入」、「工作經驗」、「主管」、「性別」等四項來當屬性,選定「買?」來當類別。
根據這項目,我們去收集資料,假設我們得到下列 8 筆資料:
收入 工作經驗 主管 性別 買?
L L N F N
L L N M N
H L N F Y
M M N F Y
M H Y F Y
M H Y M N
H H Y M Y
L M N F N
從此資料我們可得知,「收入」和「工作經驗」這兩個屬性都有 L(low)、H(high)、M(middle)三種值,而「主管」這屬性有 Y(yes)、N(no)兩種值,而「性別」這屬性有 M(male)、F(female)兩種值。所有資料的「買?」這類別值則是 Y 或 N 兩者之一。
現在首先我們需要計算目標群組 T 之 Gini 值
第一列為資料筆數 Y,其中 1 < Y < 100000
第二列為屬性名稱,最後一個是類別名稱,各元素間以空白隔開,為避免中文編碼問題,本列皆改以英文代碼呈現。(收入→AAA、工作經驗→BBB、主管→CCC、性別→DDD、買?→buy?)接下來為 Y 列資料,每筆資料的欄位以空白隔開。
第一列印出各屬性中 Gini-split()最小者之名稱,若有相同最小值時印出最左邊之屬性名稱。
第二列印出其 Gini-split()值,四捨五入到小數點後 3 位
8 AAA BBB CCC DDD buy? L L N F N L L N M N H L N F Y M M N F Y M H Y F Y M H Y M N H H Y M Y L M N F N
AAA 0.167
編號 | 身分 | 題目 | 主題 | 人氣 | 發表日期 |
沒有發現任何「解題報告」 |