Your browser does not support JavaScript!

Αρχική    3D scene generation and editing using foundational models and geometric algebra  

Αποτελέσματα - Λεπτομέρειες

Προσθήκη στο καλάθι
[Προσθήκη στο καλάθι]
Κωδικός Πόρου 000466161
Τίτλος 3D scene generation and editing using foundational models and geometric algebra
Άλλος τίτλος Δημιουργία και επεξεργασία τρισδιάστατων σκηνών χρησιμοποιώντας μεγάλα μοντέλα όρασης-γλώσσας και γεωμετρική άλγεβρα
Συγγραφέας Αγγελής, Δημήτριος Α.
Σύμβουλος διατριβής Παπαγιαννάκης, Γεώργιος
Μέλος κριτικής επιτροπής Τζίτζικας, Ιωάννης
Ρούσσος, Αναστάσιος
Πρατικάκης, Πολύβιος
Περίληψη Στον κόσμο του Embodied AI, η δημιουργία 3D simulated environments κρατά πρωτεύουσα σημασία, ωστόσο συχνά απαιτεί εξειδικευμένη εμπειρία και σημαντικό χειρωνακτικό έργο, περιορίζοντας συνεπώς την ποικιλία και την εκτεταμένη χρήση τους. Σε αυτήν τη διατριβή, πρώτον, παρουσιάζουμε ένα νέο σύστημα που σχεδιάστηκε για να αντιμετωπίσει αυτό το περιορισμό. Το σύστημα αυτό διευκολύνει την πλήρως αυτοματοποιημένη δημιουργία 3D περιβαλλόντων που προσαρμόζονται σε παραμέτρους που καθορίζει ο χρήστης. Το σύστημά μας επιδεικνύει ευελιξία στη δημιουργία ποικίλων σκηνών. Κεντρικό στην προσέγγισή μας είναι η χρήση ενός Μεγάλου Γλωσσικού Μοντέλου (LLM), το οποίο εμπνέει το σύστημα με κοινή λογική γνώση για να φανταστεί πιθανές διαμορφώσεις σκηνών. Επιπλέον, αξιοποιούμε μια τεράστια συλλογή 3D μοντέλων για να γεμίσουμε τις σκηνές με μια πλούσια γκάμα αντικειμένων. Επιπλέον, ενισχύουμε το σύστημα μας ενσωματώνοντας έναν πράκτορα ικανό να παρέχει αυτο-επιβλεπόμενα σχόλια στη διαδικασία δημιουργίας. Αυτός ο πράκτορας, κινούμενος από το GPT-4V, λειτουργεί ως rewarding agent, καθοδηγώντας τη δημιουργία προς τα επιθυμητά αποτελέσματα. Επίσης, εκμεταλλευόμαστε τις δυνατότητες του RAG (Retrieval Augmented Generation) για να εμπλουτίσουμε περαιτέρω τη διαδικασία δημιουργίας. Επιπρόσθετα, ενσωματώνουμε τη χρήση μιας εικόνας αναφοράς στη συνολική διαδικασία, αξιοποιώντας την προηγμένη οπτική κατανόηση του GPT-4V. Επιπλέον, προτείνουμε έναν καινοτόμο αλγόριθμο που συνδυάζει Μεγάλα Γλωσσικά Μοντέλα (LLMs) με την Σύμμορφη Γεωμετρική Άλγεβρα (CGA) για την επεξεργασία 3D σκηνών, ιδίως για εργασίες αναδιάταξης αντικειμένων. Οι συμβατικές μεθόδοι υποφέρουν συνήθως από την εξάρτηση από μεγάλα σύνολα δεδομένων εκπαίδευσης ή την έλλειψη μιας τυποποιημένης γλώσσας για ακριβείς επεξεργασίες. Χρησιμοποιώντας το (CGA) ως ένα τυποποιημένο γλωσσικό σύστημα, το σύστημά μας μοντελοποιεί με ακρίβεια τις χωρικές μετατοπίσεις που απαιτούνται για ακριβή αναδιάταξη αντικειμένων. Αξιοποιώντας τις ικανότητες μηδενικής εκπαίδευσης των προεκπαιδευμένων LLMs, το σύστημά μας μεταφράζει φυσικές γλωσσικές οδηγίες σε πράξεις (CGA) χωρίς την ανάγκη για εξειδικευμένη προεκπαίδευση. Για την ακριβή αξιολόγηση της επίδρασης του (CGA), κάνουμε μια σύγκριση με υλοποιήσεις βασισμένες στην ευκλείδια γεωμετρία, αξιολογώντας τόσο την καθυστέρηση όσο και την ακρίβεια. Οι συγκρίσεις δείχνουν ότι το σύστημά μας μειώνει σημαντικά τους χρόνους απόκρισης των LLM κατά 16% και αυξάνει τις επιτυχίες κατά 9,6% κατά μέσο όρο σε σύγκριση με τις παραδοσιακές μεθόδους.
Φυσική περιγραφή x, 91 σ. : σχεδ., πιν., εικ. (μερ. εγχρ.) ; 30 εκ.
Γλώσσα Αγγλικά
Θέμα Generative artificial intelligence
Large language models
Large vision models
Γενετική τεχνητή νοημοσύνη
Δημιοργία τρισδιάστατης σκηνής
Επεξεργασία τρισδιάστατης σκηνής
Ημερομηνία έκδοσης 2024-07-26
Συλλογή   Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης
  Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης
Εμφανίσεις 2

Ψηφιακά τεκμήρια
No preview available

Κατέβασμα Εγγράφου
Προβολή Εγγράφου
Εμφανίσεις : 1