Άσκηση 1

Χρησιμοποιήστε το αρχείο δεδομένων Ex1.Rdata, που περιέχει δεδομένα (training/test sets) με μια εξαρτημένη μεταβλητή \(Y\) και μια ανεξάρτητη μεταβλητή \(X\).

(α) Εφαρμόστε splines regression με τις τυπικές κυβικές συναρτήσεις spline \((X-\xi_k)_+^3\), χρησιμοποιώντας κόμβους στα ποσοστημόρια 20%, 40%, 60% και 80% της κατανομής του \(X\) στο training set. Κάντε τους υπολογισμούς για το μετασχηματισμό του πίνακα \(X\) και εφαρμόστε την εντολή lm για την παλινδρόμηση με τον πίνακα splines.

(β) Υπολογίστε το σφάλμα στο test set.

(γ) Αγνοώντας το test set, προγραμματίστε τον αλγόριθμο k-fold cross validation με \(k=5\), για να κάνετε μια εκτίμηση του μέσου τετραγωνικού σφάλματος πρόβλεψης.

Άσκηση 2

Χρησιμοποιήστε το αρχείο Ex1.Rdata της Άσκησης 1

(α) Δημιουργήστε μια συνάρτηση που εφαρμόζει τη μέθοδο smoothing splines μέσω της βάσης Demmler-Reinsh, για δοσμένη τιμή της παραμέτρου ποινής \(\lambda\).

(β) Εφαρμόστε τη συνάρτηση αυτή στα δεδομένα του training set για βαθμούς ελευθερίας \(df(\lambda) = 5, 10, 20, 30\) και επιλέξτε από αυτές την τιμή που ελαχιστοποιεί το μέσο σφάλμα πρόβλεψς. Σε ποια τιμή του \(\lambda\) αντιστοιχεί αυτό;

(γ) Βρείτε κατάλληλη συνάρτηση από τη βιβλιοθήκη splines του R, που εφαρμόζει τη μέθοδο smoothing splines, εφαρμόστε τη στο training set και ελέγξτε τη συμβατότητα των αποτελεσμάτων με αυτά του δικού σας κώδικα.

Άσκηση 3

Λύστε την Άσκηση 11.5 χωρίς την παραλλαγή weight-decay.