Sei sulla pagina 1di 4

Data Set Information:

The dataset was downloaded from the UCI Machine Learning Repository.

The two datasets are related to red and white variants of the Portuguese "Vinho Verde" wine. The
reference [Cortez et al., 2009]. Due to privacy and logistic issues, only physicochemical (inputs) and
sensory (the output) variables are available (e.g. there is no data about grape types, wine brand,
wine selling price, etc.).

These datasets can be viewed as classification or regression tasks. The classes are ordered and not
balanced (e.g. there are munch more normal wines than excellent or poor ones). Outlier detection
algorithms could be used to detect the few excellent or poor wines. Also, we are not sure if all input
variables are relevant. So it could be interesting to test feature selection methods.

Two datasets were combined and few values were randomly removed.

Attribute Information:

For more information, read [Cortez et al., 2009]. Input variables (based on physicochemical tests): 1
- fixed acidity 2 - volatile acidity 3 - citric acid 4 - residual sugar 5 - chlorides 6 - free sulfur dioxide 7 -
total sulfur dioxide 8 - density 9 - pH 10 - sulphates 11 - alcohol Output variable (based on sensory
data): 12 - quality (score between 0 and 10)

Acknowledgements:

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining
from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.

Informasi kumpulan data:

Dataset telah diunduh dari UCI Machine Learning repositori.

Dua dataset yang berhubungan dengan varian merah dan putih Portugis "vinho Verde " anggur.
Referensi [Cortez et al., 2009]. Karena masalah privasi dan logistik, hanya variabel fisikokimia (input) dan
sensorik (output) yang tersedia (misalnya tidak ada data tentang jenis anggur, merek anggur, harga jual
anggur, dll.).

Dataset ini dapat dilihat sebagai tugas klasifikasi atau regresi. Kelas yang dipesan dan tidak seimbang
(misalnya ada anggur yang lebih normal lebih baik daripada yang buruk). Algoritma deteksi outlier dapat
digunakan untuk mendeteksi beberapa anggur yang sangat baik atau buruk. Juga, kita tidak yakin
apakah semua variabel input relevan. Jadi itu bisa menarik untuk menguji metode pilihan fitur.

Dua dataset digabungkan dan beberapa nilai secara acak dihapus.

Informasi atribut:
Untuk informasi lebih lanjut, baca [Cortez et al., 2009]. Variabel input (berdasarkan tes fisikokimia): 1-
tetap keasaman 2-volatile keasaman 3-asam sitrat 4-sisa gula 5-klorida 6-bebas sulfur dioksida 7-total
sulfur dioksida 8-kepadatan 9-pH 10-sulfat 11-alkohol output variabel (berdasarkan data sensorik): 12-
kualitas (Skor antara 0 dan 10)

Penghargaan

P. Cortez, A. Cerdeira, F. Almeida, T. Matos dan J. Reis. Pemodelan preferensi anggur oleh penambangan
data dari sifat fisikokimia. Dalam sistem pendukung keputusan, Elsevier, 47 (4): 547-553, 2009.

The two datasets are related to red and white variants of the Portuguese "Vinho Verde" wine. For
more details, consult the reference [Cortez et al., 2009]. Due to privacy and logistic issues, only
physicochemical (inputs) and sensory (the output) variables are available (e.g. there is no data about
grape types, wine brand, wine selling price, etc.).

These datasets can be viewed as classification or regression tasks. The classes are ordered and not
balanced (e.g. there are much more normal wines than excellent or poor ones).
For more information, read [Cortez et al., 2009].
Input variables (based on physicochemical tests):
1 - fixed acidity
2 - volatile acidity
3 - citric acid
4 - residual sugar
5 - chlorides
6 - free sulfur dioxide
7 - total sulfur dioxide
8 - density
9 - pH
10 - sulphates
11 - alcohol
Output variable (based on sensory data):
12 - quality (score between 0 and 10)

Untuk informasi lebih lanjut, baca [Cortez et al., 2009].

Variabel masukan (berdasarkan tes fisikokimia):

1-tetap keasaman 2-volatile keasaman 3-asam sitrat 4-sisa gula 5-klorida 6-bebas sulfur dioksida 7-total
sulfur dioksida 8-kepadatan 9-pH 10-sulfat 11-alkohol output variabel (berdasarkan data sensorik): 12-
kualitas (Skor menjajaki n 0 dan 10)

Tips

What might be an interesting thing to do, is aside from using regression modelling, is to set an
arbitrary cutoff for your dependent variable (wine quality) at e.g. 7 or higher getting classified as
'good/1' and the remainder as 'not good/0'. This allows you to practice with hyper parameter tuning
on e.g. decision tree algorithms looking at the ROC curve and the AUC value. Without doing any
kind of feature engineering or overfitting you should be able to get an AUC of .88 (without even using
random forest algorithm)

KNIME is a great tool (GUI) that can be used for this.


1 - File Reader (for csv) to linear correlation node and to interactive histogram for basic EDA.
2- File Reader to 'Rule Engine Node' to turn the 10 point scale to dichtome variable (good wine and
rest), the code to put in the rule engine is something like this:
- $quality$ > 6.5 => "good"
- TRUE => "bad"
3- Rule Engine Node output to input of Column Filter node to filter out your original 10point feature
(this prevent leaking)
4- Column Filter Node output to input of Partitioning Node (your standard train/tes split, e.g.
75%/25%, choose 'random' or 'stratified')
5- Partitioning Node train data split output to input of Train data split to input Decision Tree Learner
node and
6- Partitioning Node test data split output to input Decision Tree predictor Node
7- Decision Tree learner Node output to input Decision Tree Node input
8- Decision Tree output to input ROC Node.. (here you can evaluate your model base on AUC
value)

Inspiration

Use machine learning to determine which physiochemical properties make a wine 'good'!

Acknowledgements

This dataset is also available from the UCI machine learning repository,
https://archive.ics.uci.edu/ml/datasets/wine+quality , I just shared it to kaggle for convenience. (I am
mistaken and the public license type disallowed me from doing so, I will take this down at first
request. I am not the owner of this dataset.
Please include this citation if you plan to use this database: P. Cortez, A. Cerdeira, F. Almeida, T.
Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In
Decision Support Systems, Elsevier, 47(4):547-553, 2009.

Tips

Apa yang mungkin menjadi hal yang menarik untuk dilakukan, adalah selain menggunakan pemodelan
regresi, adalah untuk mengatur cutoff sewenang-wenang untuk variabel dependen Anda (kualitas
anggur) di misalnya 7 atau lebih tinggi mendapatkan diklasifikasikan sebagai ' baik/1 ' dan sisanya
sebagai ' tidak baik/0 '. Hal ini memungkinkan Anda untuk berlatih dengan hiper parameter tuning pada
misalnya pohon keputusan algoritma melihat kurva ROC dan nilai AUC. Tanpa melakukan apapun
rekayasa fitur atau overfitting Anda harus bisa mendapatkan AUC. 88 (bahkan tanpa menggunakan
algoritma hutan acak)

KNIME adalah alat yang hebat (GUI) yang dapat digunakan untuk ini.

1-file Reader (untuk CSV) ke simpul korelasi linear dan histogram interaktif untuk EDA dasar.

2-file Reader untuk ' Rule Engine node ' untuk mengubah skala 10 titik ke variabel dichtome (anggur
yang baik dan sisanya), kode untuk dimasukkan ke dalam mesin aturan adalah sesuatu seperti ini:

-$quality $ > 6,5 = > "baik "

-TRUE = > "buruk "

3-rule Engine node output untuk input kolom filter node untuk menyaring fitur 10point asli Anda (ini
mencegah bocor)

output node filter

4-kolom untuk input node partisi (kereta api standar/tes split Anda, misalnya 75%/25%, pilih ' Random '
atau ' Stratified ')

5-partisi kereta api data Split output untuk input kereta data yang terpisah untuk input pohon
keputusan Learner node dan

6-pemartisian node tes data Split output untuk input pohon keputusan prediktor node

7-pohon keputusan pelajar node output untuk input masukan node pohon keputusan

8-keputusan pohon output untuk input ROC node.. (di sini Anda dapat mengevaluasi model dasar Anda
pada nilai AUC)

Inspirasi

Gunakan pembelajaran mesin untuk menentukan sifat fisiokimia yang membuat anggur ' baik '!

Penghargaan

Dataset ini juga tersedia dari repositori pembelajaran mesin UCI,


https://archive.ics.uci.edu/ml/datasets/wine+quality, saya hanya membagikannya ke kaggle demi
kenyamanan. (Saya salah dan jenis lisensi publik terlarang saya dari melakukannya, saya akan
mengambil ini pada permintaan pertama. Saya bukan pemilik dataset ini.

Harap sertakan kutipan ini jika Anda berencana untuk menggunakan database ini: P. Cortez, A. Cerdeira,
F. Almeida, T. Matos dan J. Reis. Pemodelan preferensi anggur oleh penambangan data dari sifat
fisikokimia. Dalam sistem pendukung keputusan, Elsevier, 47 (4): 547-553, 2009.