Ερευνητές προβλέπουν το εισόδημα μας μέσω των μηνυμάτων στο Twitter

Οι λέξεις που χρησιμοποιεί ο κάθε χρήστης στα social media μπορούν να αποκαλύψουν κρυμμένες έννοιες σε όσους ξέρουν πού να κοιτάξουν.

Οι γλωσσολόγοι εδώ και αρκετά χρόνια ερευνούν αυτήν ακριβώς την παράμετρο που συνδέει τα λόγια ενός ατόμου με την ηλικία, το φύλο, ακόμα και την κοινωνικοοικονομική κατάσταση.

Νέα έρευνα όμως μιας ομάδας ερευνητών, στην οποία συμμετέχουν και 2 Έλληνες, έκανε ένα βήμα παραπέρα, συνδέοντας την online συμπεριφορά περισσότερων από 5.000 χρηστών του Twitter με την κατηγορία εισοδήματος τους. Τα αποτελέσματα της έρευνας δημοσιεύθηκαν στο περιοδικό PLoS ONE.

Επικεφαλής της έρευνας είναι ο μεταδιδακτορικός ερευνητής στο Κέντρο Θετικής Ψυχολογίας Penn της Σχολής Τεχνών και Επιστημών Daniel Preotiuc-Pietro, σε συνεργασία με την Svitlana Volkova του Πανεπιστημίου Johns Hopkins, τον Βασίλειο Λάμπο και τον Νικόλαο Αλετρά του University College London καθώς και τον Yoram Bachrach της Microsoft Research.

Ο Βασίλης Λάμπος δήλωσε:

«Τα πολυδιάστατα δεδομένα των χρηστών των κοινωνικών δικτύων — από τα μοτίβα της διαδραστικής συμπεριφοράς τους μέχρι τη θεματολογία με την οποία καταπιάνονται – επιτρέπουν την αυτοματοποιημένη εξαγωγή χρήσιμων συμπερασμάτων. Στην παρούσα ερευνητική εργασία προτείνουμε ένα μοντέλο με το οποίο μπορούμε να προβλέψουμε το επίπεδο εισοδήματος ενός χρήστη του κοινωνικού δικτύου Twitter. Εκτός από τα αυτονόητα διαδικτυακά «προϊόντα» (π.χ. στοχευμένη διαφήμιση) που μπορούν να βασιστούν σε τέτοιου τύπου έρευνες, το βασικότερο όφελος ίσως είναι ότι τέτοιες μέθοδοι μπορούν να χρησιμοποιηθούν στο μέλλον για τη διεξαγωγή πιο εμπεριστατωμένων κοινωνιολογικών αναλύσεων, βασιζόμενες σε πολύ μεγαλύτερα στατιστικά δείγματα από εκείνα των παραδοσιακών ερωτηματολογίων».

Η ερευνητική ομάδα έκανε αντίθετη προσέγγιση σε ό,τι ψυχολόγοι και γλωσσολόγοι είχαν κάνει μέχρι σήμερα. Αντί να κάνουν άμεσες ερωτήσεις, οι επιστήμονες εξέτασαν τα ποσταρίσματα των συμμετεχόντων στα κοινωνικά δίκτυα, τα οποία είναι συχνά γεμάτα από προσωπικές λεπτομέρειες, παρά την έλλειψη της ιδιωτικότητας.

Για αυτό το πείραμα, οι ερευνητές ξεκίνησαν να εξετάζουν πως οι χρήστες του Twitter περιγράφουν τα επαγγέλματα τους.

Στο Ηνωμένο Βασίλειο, ένα σύστημα κωδικών ταξινομεί τα επαγγέλματα σε εννέα κατηγορίες. Χρησιμοποιώντας αυτή την ιεραρχία, οι ερευνητές καθόρισαν το μέσο εισόδημα για κάθε κωδικό και στη συνέχεια αναζήτησαν ένα αντιπροσωπευτικό δείγμα για το καθένα. Μετά την αφαίρεση των διφορούμενων προφίλ, η ομάδα κατέληξε σε 5.191 χρήστες του Twitter και περισσότερα από 10 εκατομμύρια tweets για την ανάλυση.

Από εκεί, οι επιστήμονες στη συνέχεια δημιούργησαν μια στατιστική φυσική γλώσσα με αλγόριθμο επεξεργασίας που τράβηξε τις λέξεις που οι άνθρωποι σε κάθε κατηγορία κωδικού χρησιμοποιούν ευδιάκριτα. Οι περισσότεροι άνθρωποι έχουν την τάση να χρησιμοποιούν τις ίδιες ή παρόμοιες λέξεις, έτσι η δουλειά του αλγορίθμου ήταν να “καταλάβει” ποιες λέξεις ήταν περισσότερο προβλέψιμες για κάθε κατηγορία.

Μερικά από τα αποτελέσματα επικύρωσαν ό, τι είναι ήδη γνωστό, για παράδειγμα, ότι τα λόγια ενός ατόμου μπορεί να αποκαλύψουν την ηλικία και το φύλο, και ότι αυτά συνδέονται με το εισόδημα τους. Αλλά ο Preotiuc-Pietro τόνισε ότι υπήρχαν και μερικές εκπλήξεις, για παράδειγμα, αυτοί που κερδίζουν περισσότερα τείνουν να εκφράζουν περισσότερο φόβο και θυμό στο Twitter. Οι αισιόδοξοι έχουν χαμηλότερο μέσο εισόδημα. Το κείμενο από όσους έχουν χαμηλότερα εισοδήματα περιλαμβάνει περισσότερες βρισιές, ενώ εκείνοι με υψηλότερο εισόδημα αναφέρονται πιο συχνά στην πολιτική, στις επιχειρήσεις και στον μη κερδοσκοπικό κόσμο.

“Οι χρήστες με χαμηλό εισόδημα ή όσοι έχουν χαμηλότερο κοινωνικοοικονομικό επίπεδο χρησιμοποιούν το Twitter περισσότερο ως ένα μέσο επικοινωνίας μεταξύ τους. Οι άνθρωποι υψηλού εισοδήματος το χρησιμοποιούν περισσότερο για τη διάδοση ειδήσεων, και το χρησιμοποιούν περισσότερο επαγγελματικά από προσωπικά” σημειώνει ο κ. Αλετράς.

«Αξίζει να σημειώσουμε ότι η έρευνά μας δεν παρουσιάζει μια μέθοδο που να είναι αρκετά ώριμη ώστε να κρίνει το εισόδημα μεμονομένων χρηστών με ακρίβεια. Οι διαπιστώσεις που μπορούμε να εξάγουμε σε αυτή τη φάση αφορούν σύνολα πολλαπλών χρηστών, όπου το στατιστικό λάθος μειώνεται σημαντικά», καταλήγει ο Δρ. Λάμπος.

ΠΡΟΣΘΕΣΕ ΤΟ ΣΧΟΛΙΟ ΣΟΥ

ΦΩΤΟΓΡΑΦΙΕΣ