Monday, September 08, 2008

συχνότητες

Οι συμμαθήτριες μου στις πρώτες τάξεις του γυμνασίου, πριν ανακαλύψουν τη χαρά που προσφέρει το πέος και εθιστούν, ασχολούνταν με διάφορα ανούσια, όπως να περνάνε η μία στην άλλη μυστικά μηνύματα γραμμένα σε κώδικα.

Οι κώδικες αυτοί συνήθως ήταν μια μορφή αυτού που οι κρυπτογράφοι ονομάζουν substitution cipher, οι συμμαθήτριες μου απλά αντικαθιστούσαν κάθε γράμμα της ελληνικής αλφαβήτου με ένα σύμβολο, και έγραφαν τα μηνύματα χρησιμοποιώντας αυτή την παράξενη συλλογή συμβόλων.

Δεν ήταν πολύ δύσκολο να αποκρυπτογραφήσεις τα μηνύματα, η βασική ιδέα ήταν να μετρήσεις πόσες φορές εμφανιζόταν κάθε σύμβολο στο κείμενο. Μετά, άρχιζες τις υποθέσεις. Το πιο συχνό σύμβολο ήταν μάλλον το "α", αντικαθιστούσες το α στο κείμενο, έψαχνες για τυχόν δισύλλαβες λέξεις που είχαν ένα "α" για να εντοπίσεις το "τ", δοκίμαζες με το δεύτερο πιο συχνό γράμμα, και σιγά-σιγά οι λέξεις αποκαλύπτονταν...

Πάνω-κάτω το ίδιο κόλπο κάνει και ο Internet Explorer στην προσπάθεια του να μαντέψει σε ποια γλώσσα είναι γραμμένη μια σελίδα που επισκέπτεστε.

Εξηγούμαι.

Ο IE διαθέτει καταλόγους με τις συχνότητες των γραμμάτων ποικιλίας γλωσσών. Μπορεί και όλων των ζώντων γλωσσών. Με τον όρο "Κατάλογος Συχνοτήτων" εννοώ ότι για κάθε γράμμα της Ελληνικής (ή της Ιταλικής ή της Ρωσικής) διαθέτει έναν αριθμό που μας λέει σε τι αναλογία με τα άλλα γράμματα θα εμφανιστεί αυτό το γράμμα σε ένα κείμενο.

Πχ, ότι τα "α" θα αποτελούν το 12% των γραμμάτων ενός ελληνικού κειμένου, τα "τα" το 9% των γραμμάτων, και πάει λέγοντας.

Οπότε, μετρώντας τις συχνότητες εμφάνισης των γραμμάτων μιας σελίδας στο internet, και αντιπαραβάλλοντας με τους καταλόγους, μπορεί κανείς να μαντέψει σε τι γλώσσα είναι γραμμένο ένα κείμενο. Όχι πάντα, μερικές σελίδες μπορεί να περιέχουν παραπάνω από μία γλώσσες, ή να περιέχουν κείμενα που τα γράμματα τους δεν ακολουθούν την συνηθισμένη κατανομή. Αλλά γενικά, το κόλπο λειτουργεί καλά.

Όλα τα παραπάνω εξηγούν γιατί μερικές σελίδες που εμφανίζονται στα ελληνικά στον Internet Explorer, εμφανίζονται με ό,τι νάναι σύμβολα στον Firefox. O Internet Explorer κάνει την επιπλέον προσπάθεια να μαντέψει την γλώσσα στην οποία είναι γραμμένη η σελίδα, ενώ ο Firefox περιμένει η ίδια η σελίδα κάπου να λέει σε τι γλώσσα είναι γραμμένη. Και αρκετές σελίδες εκεί έξω, δεν το λένε. Αν και θα έπρεπε.

Και όλα αυτά τα γράφω γιατί τα χρωστούσα από τότε που είχα ενθουσιαστεί με το Wordle.net, και του είχα ζητήσει να απεικονίσει τα γράμματα του ελληνικού αλφαβήτου σε μέγεθος ανάλογο με τη συχνότητα εμφάνισης τους.

6 comments:

Lina said...

πιο.... φροϋδική προσεγγιση δεν θα μπορούσες να κάνεις! =Ρ ίσως μονο αν έγραφες το πέος με κεφαλαιο Π.

uncle said...

τα είπες τώρα όλα αυτά για να καλύψεις τον χαρακτηρισμό των πρώην συμμαθητριών επειδή δε σου περνούσαν τα μηνύματα!

Stavros Amanatidis said...

Kαι σαν σωστός καθηγητής, μας είχες βάλει να φτιάξουμε ένα πρόγραμμα που να αποκωδικοποιεί μηνύματα που ήταν κρυπτογραφημένα με αυτόν τον τρόπο..

Είχαμε φτιάξει πρώτα ένα πρόγραμμα που διάβαζε ένα βιβλίο και από εκεί έφτιαχνε τις συχνότητες και μετά προσπαθούσαμε να τις εφαρμόσουμε στο κρυπτογραφημένο κείμενο..
αααααχ, εποχές..

Acro said...

Εγώ πάλι είχα (στα δέκα έξι μου)φάει τέσσερις ώρες προσπαθώντας να διαβάσω μια φράση που μου είχε γράψει συμμαθήτρια σ' ένα βιβλίο με τον παραπάνω τρόπο.
Όταν τελικά τα κατάφερα, παραλίγο να φωνάξω από τη χαρά μου, η οποία δεν μετριάστηκε καθόλου από το ότι το μήνυμα δεν ήταν καθόλου ερωτικό.
Έγραφε: "Το αύριο είναι καλύτερο από το χθες"

Unknown said...

σταύρο, είσαι ένα γλειφτράκι, acro, είχες βαρετές συμμαθήτριες...

Anonymous said...

Mia kai hmoun symmathitria sou sto gymnasio, tha sou lysw thn aporia: o kwdikas pou xrhsimopoiousame gia ta mynhmata mas htan ta Aigyptiaka ieroglyfika according to Papyros - Larrousse -Britannica!!!
No brownie points for guessing who came up with that...