Περίληψη |
Είμαστε μάρτυρες μιας έκρηξης διαθέσιμων δεδομένων, προερχόμενων από το Δια-δίκτυο, τις κυβερνητικές αρχές, τις επιστημονικές βάσεις δεδομένων, τους αισθητήρες και άλλες πηγές. Τέτοια σύνολα δεδομένων θα μπορούσαν να επωφεληθούν από την εισαγωγή συνόλων από κανόνες οι οποίοι κωδικοποιούν κοινά αποδεκτούς κανόνες ή δεδομένα, ειδικούς κανόνες για ορισμένες εφαρμογές ή πεδία, την γνώση της κοινής λογικής κλπ. Αυτό εγείρει το ερώτημα ως προς το αν, πως, και σε ποιά έκταση οι μέθοδοι της αναπαράστασης γνώσης είναι ικανές να χειριστούν τις τεράστιες ποσότητες δεδομένων για αυτές τις εφαρμογές. Σε αυτήν την εργασία, θεωρούμε συλλογισμούς με ανοχή στην ασυνέπεια υπό την μορφή της αναιρέσιμης συλλογιστικής, και αναλύουμε το πώς ο παραλληλισμός, χρησιμοποιώντας το πλαίσιο εργασίας MapReduce, μπορεί να χρησιμοποιηθεί για συλλογισμούς με αναιρέσιμους κανόνες πάνω σε τεράστια σύνολα δεδομένων. Αρχικά, παρέχουμε μια λύση για συλλογισμούς πάνω σε κατηγορήματα με ένα όρισμα. Στην συνέχεια, επεκτείνουμε την προσέγγιση μας αντιμετωπίζοντας το πρόβλημα για κατηγορήματα πολλών ορισμάτων, υπό την υπόθεση της διαστρωμάτωσης. Η μετακίνηση από κατηγορήματα ενός ορίσματος σε κατηγορήματα πολλών ορισμάτων, είναι ένα αποφασιστικό βήμα προς πρακτικές εφαρμογές, π.χ. συλλογισμοί με Συνδεδεμένα (RDF) Δεδομένα. Συγκεκριμένα, παρουσιάζουμε μια κλιμακούμενη μέθοδο για μη μονότονους συλλογισμούς βασισμένους σε κανόνες, πάνω σε δεδομένα Σημασιολογικού Ιστού, χρησιμοποιώντας MapReduce. Τα πειραματικά μας αποτελέσματα επιδεικνύουν ότι η προσέγγιση για κατηγορήματα ενός ορίσματος είναι αποδοτική για δισεκατομμύρια δεδομένων, και έχει την δυνατότητα να επεκταθεί σε τρισεκατομμύρια δεδομένων. Η προσέγγιση για κατηγορήματα πολλών ορισμάτων, έχει αξιολογηθεί για εκατομμύρια δεδομένων, αποδεικνύοντας ότι είναι εφικτή, έχοντας την δυνατότητα να επεκταθεί σε δισεκατομμύρια δεδομένων. Τέλος, τα αποτελέσματα μας υποδεικνύουν ότι μη μονότονοι συλλογισμοί πάνω σε RDF επιδεικνύουν καλές ιδιότητες επεκτασιμότητας και είναι ικανοί να διαχειριστούν συλλογή δεδομένων συγκριτικής αξιολόγησης που αποτελείται από 1 δισεκατομμύριο τριπλέτες, καθιστώντας το εφάμιλλο με προηγμένες μεθόδους για μονότονες λογικές.
|