Εισαγωγή δεδομένων
Σε αυτό το σημείο του βιβλίου, θα μάθετε πώς να εισάγετε διαφορετικούς τύπους δεδομένων στην R, καθώς και πώς να τα μετατρέψετε σε μία μορφή χρήσιμη για ανάλυση. Μερικές φορές χρειάζεται απλά η κλήση μιας συνάρτησης από το κατάλληλο πακέτο εισαγωγής δεδομένων. Σε πιο περίπλοκες περιπτώσεις όμως, μπορεί να χρειαστεί τόσο η τακτοποίηση όσο και ο μετασχηματισμός, για να καταλήξετε στη τακτοποιημένη μορφή πίνακα με την οποία θα προτιμούσατε να εργαστείτε.
Σε αυτό το σημείο του βιβλίου θα μάθετε πώς να αποκτήσετε πρόσβαση σε δεδομένα που είναι αποθηκευμένα με τους ακόλουθους τρόπους:
Στο 20 Υπολογιστικά φύλλα, θα μάθετε πώς να εισάγετε δεδομένα από Excel και Google Sheets.
Στο 21 Βάσεις Δεδομένων, θα μάθετε πώς να εξάγετε δεδομένα από μία βάση δεδομένων και να τα εισάγετε στην R (θα μάθετε επίσης και μερικά πράγματα για το πώς να μεταφέρετε δεδομένα από την R σε μία βάση δεδομένων).
Στο 22 Arrow, θα μάθετε για το Arrow, ένα ισχυρό εργαλείο για να δουλεύετε με δεδομένα που δεν χωράνε στη μνήμη, ιδιαίτερα όταν είναι αποθηκευμένα σε μορφή parquet.
Στο 23 Ιεραρχικά δεδομένα, θα μάθετε πώς να εργάζεστε με ιεραρχικά δεδομένα, συμπεριλαμβανομένων των πολυεπίπεδων λιστών που παράγονται από δεδομένα που είναι αποθηκευμένα σε μορφή JSON.
Στο 24 Ιστοσυγκομιδή, θα μάθετε την ιστοσυγκομιδή (web “scraping”), την τέχνη και επιστήμη της εξαγωγής δεδομένων από ιστοσελίδες.
Υπάρχουν δύο σημαντικά πακέτα του tidyverse που δεν συζητάμε εδώ: το haven και το xml2. Εάν εργάζεστε με δεδομένα από αρχεία SPSS, Stata και SAS, ρίξτε μία ματιά στο πακέτο haven, https://haven.tidyverse.org. Εάν εργάζεστε με δεδομένα XML, ρίξτε μία ματιά στο πακέτο xml2, https://xml2.r-lib.org. Διαφορετικά, θα χρειαστεί να κάνετε λίγη έρευνα για να καταλάβετε ποιο πακέτο θα χρειαστεί να χρησιμοποιήσετε κάθε φορά. Το Google, σε αυτή την περίπτωση, είναι φίλος σας 😃.