Η Mindseed για λογαριασμό της ΔΑΕΜ και του Δήμου Αθηναίων συνεργάστηκε με την Google για την εφαρμογή μηχανισμού AI αναζήτησης και ψηφιακού βοηθού (agent) στο site cityofathens.gr. Πρόκειται για το επίσημο site του δήμου Αθηναίων.
Σκοπός του έργου
α) Η ευρετηρίαση (indexing) όλων των σελίδων του site καθώς και υποσελίδων (subdomains) που εξυπηρετούν συγκεκριμένες ανάγκες πληροφόρησης αλλά και υπηρεσίες του δήμου προς τους πολίτες. Ευρετηρίαση υπό-sites όπως το σύστημα καταγραφής δενδροφυτεύσεων, οι ηλεκτρονικές πληρωμές κ.α
β) Εισαγωγή AI ψηφιακού βοηθού (chatbot agent) σε όλες τις σελίδες του site για την άμεση απάντηση και παροχή συνδέσμων προς τους πολίτες για υπηρεσίες και σελίδες ενημέρωσης.
Ζητήματα
1) Κατηγοριοποίηση περιεχομένου
Ζητούμενο ήταν να ευρετηριαστούν 3 πηγές περιεχομένου.
α) Νέα / Δελτία Τύπου
Υπήρχαν χιλιάδες άρθρα στην ενότητα Νέα / Δελτία τύπου χωρίς κάποια κατηγοριοποίηση σύμφωνα με τον χρόνο δημοσίευσης. Δεν μπορούσε να οριστεί έτσι η επιλογή sorting με το έτος (σε επίπεδο κατηγορίας δημοσιεύσεων) οπότε για την διαχείριση των άρθρων αυτών χρησιμοποιήθηκε το meta tag της ημερομηνίας δημοσίευσης σε επίπεδο άρθρου. Υπήρχαν διάφορες μορφές σε επίπεδο url οπότε ούτε εκεί μπορούσε να εφαρμοστεί κάποιος τρόπος επιλογής του περιεχομένου.
β) Σταθερές σελίδες ενημερωτικές του site
Οι σταθερές σελίδες δεν διαχωρίζονταν με κάποιο τρόπο από τα άρθρα σε επίπεδο meta πληροφορίας στο WordPress. Ευρετηριάστηκαν μαζικά όπως όλες οι πηγές περιεχομένου του site.
γ) Υπο-σελίδες (micro site σε subdomain)
Πραγματοποιήθηκε ευρετηρίαση (indexing) και σε επίπεδο subdomains.
2) Σημαντικότητα πληροφορίας
Η μεγάλη πρόκληση που χρειάστηκε να εξετάσουμε ήταν η ποιότητα του περιεχομένου, ο διαχωρισμός και η σημαντικότητα των πληροφοριών καθώς και η “φρεσκάδα” αυτών, το πόσο παλιό ή νέο ήταν ένα άρθρο η μία πληροφορία στο site.
Θα δώσουμε ένα παράδειγμα, στο ερώτημα “Ποιος είναι ο δήμαρχος της Αθήνας” το LLM έδινε απαντήσεις βασισμένο στην συχνότητα αναφοράς, στον αριθμό των άρθρων που ήταν δημοσιευμένα στο site. Λαμβάναμε αποτελέσματα με αναφορά σε προηγούμενες δημοτικές αρχές και όχι στην τρέχουσα, κάτι που δεν ήταν αποδεκτό ποιοτικά για την πληροφόρηση των χρηστών.
Εδώ λοιπόν χρειάζεται να εξηγήσουμε το τι είναι το LLM (Large Language Model) και πως αυτό δουλεύει. Πρόκειται για ένα είδος μοντέλου μηχανικής μάθησης/βαθιάς μάθησης που μπορεί να εκτελεί μια ποικιλία εργασιών φυσικής επεξεργασίας γλώσσας (NLP) και ανάλυσης, όπως η μετάφραση, η ταξινόμηση και η δημιουργία κειμένου, η απάντηση σε ερωτήσεις με συνομιλητικό τρόπο και η αναγνώριση προτύπων δεδομένων.
Η ακρίβεια λοιπόν του περιεχομένου είναι σημαντικός παράγοντας επιτυχίας για την ποιότητα των αποτελεσμάτων που θα δώσει το LLM στον τελικό χρήστη.
3) Αλγόριθμος κατάταξης
Με δεδομένο ότι δεν μπορεί να αποκλειστεί περιεχόμενο από το site του Δήμου αλλά και την αδυναμία να γίνει επεξεργασία χιλιάδων άρθρων έπρεπε να βρεθεί ένας τρόπος να γίνει ranking των πληροφοριών σύμφωνα με την σημαντικότητα τους και την “φρεσκάδα” τους.
Έγινε εισαγωγή custom meta tag στις σταθερές σελίδες πληροφόρησης του site για να γίνει διαχωρισμός από τα άρθρα (νέα / δελτία τύπου κλπ). Δημιουργήθηκε ένας αλγόριθμος που έδινε οδηγίες στο LLM για την βαρύτητα- σημαντικότητα ενός άρθρου έναντι άλλων. Μεγαλύτερη βαρύτητα θα είχε μία σταθερή σελίδα πληροφόρησης από ένα άρθρο για τα ζητήματα που πραγματεύεται. Στο παράδειγμα λοιπόν “Ποιος είναι ο δήμαρχος;” το LLM θα λάβει υπόψη του με μεγαλύτερη βαρύτητα την σελίδα αναφοράς στον εκάστοτε δήμαρχο της πόλης. Επίσης στον αλγόριθμο αυτό αντίστοιχο παράγοντα ranking έλαβαν και οι υποσελίδες πληροφόρησης (subsites σε επίπεδο subdomain).
Με την “καθοδήγηση” του αλγόριθμου βοηθάμε το LLM να λάβει υπόψη του την πληροφορία που είναι χρήσιμη στον χρήστη του site του Δήμου Αθηναίων. Η ίδια τεχνική εφαρμόστηκε και στον Agent.
Τεχνολογίες
Έγινε χρήση του Google Gemini στις εκδόσεις Gemini-1.0-pro-002 (για το search) και της έκδοσης Gemini 1.5-pro (preview) για τον agent. Έγινε χρήση του Big query καθώς και του Looker Studio. Όλη η υλοποίηση τρέχει στο Google Cloud. Ενσωματώθηκε το Gemini στο WordPress CMS που υποστηρίζει το site του δήμου.
Για την βελτιστοποίηση των αποτελεσμάτων που λαμβάνουν οι πολίτες γίνεται ανώνυμη καταγραφή των ερωτήσεων και απαντήσεων σε επίπεδο search και agent. Επίσης γίνεται καταγραφή των σφαλμάτων. Η αποθήκευση των δεδομένων γίνεται στο Big query και η οπτικοποίηση των καταγραφών στο Looker Studio.
Προοπτικές
Υπάρχουν αρκετές προοπτικές εξέλιξης του συστήματος που είναι ήδη σε εξέλιξη, με την ενσωμάτωση επιπλέον δυνατοτήτων τόσο σε επίπεδο λειτουργιών (voice search) αλλά και το indexing όλων των site ενημέρωσης του Δήμου στα σχετικά αποτελέσματα αναζήτησης.
Συμπληρωματικά στο μέλλον θα μπορούσε να συνδεθεί με τρίτες εφαρμογές με API για την online πραγματοποίηση συναλλαγών και την ολοκλήρωση αιτημάτων προς υπηρεσίες του Δήμου.
Comments
Loading…