
Αρχική
Trial & error : data transformation and provenance techniques in scientific workflows
Αποτελέσματα - Λεπτομέρειες
|
||||
Κωδικός Πόρου | 000334421 | |||
Τίτλος | Trial & error : data transformation and provenance techniques in scientific workflows | |||
Άλλος τίτλος | Trial & Error: Τεχνικές Μετατροπής και Προέλευσης Δεδομένων σε Επιστημονικά Συστήματα Ροής | |||
Συγγραφέας | Τσισπαράς, Βασίλης Κ | |||
Σύμβουλος διατριβής | Χριστοφίδης, Βασίλης | |||
Περίληψη |
Σε πολλές περιπτώσεις οι πηγές δεδομένων που πρόκειται να ενσωματωθούν είναι χειρονακτικώς μορφοποιημένα αρχεία κειμένων όπως τα λεξικά, τα αποκαλούμενα "σώματα και εγκυκλοπαιδικό υλικό" με τους πολύ σύνθετους κανόνες κωδικοποίησης και πολλές εξαιρέσεις, οι οποίοι πρέπει να μετασχηματιστούν σε μια μορφή συμβατή με Βάσεις Δεδομένων που υπακούει σε ένα καθολικό σχήμα, έτσι ώστε όλες οι πληροφορίες να μπορούν να προσπελαστούν και να ερωτηθούν με έναν ομοιόμορφο τρόπο. Τα περισσότερα από τα προηγούμενα και πολλά πρόσφατα συστήματα υιοθετούν διαδικασίες μετασχηματισμού δεδομένων σε ένα ενιαίο βήμα. Τέτοιοι μετασχηματισμοί μιας φάσης είναι κυρίως ιδιότροποι, δηλ. διαφορετικοί για κάθε πηγή, και απαιτούν την εφαρμογή πολύ συγκεκριμένων εργαλείων. Προκειμένου να δημιουργηθεί λογισμικό για ενα τέτοιο μετασχηματισμό, απαιτούνται επαναλαμβανόμενες δοκιμές, ενώ το συγκεκριμένο λογισμικό μπορεί να χρησιμοποιηθεί μόνο μιά φορά. Σε αυτήν την εργασία δημιουργήσαμε μια εφαρμογή αποκαλούμενη Trial & Error που υποστηρίζει μια τεχνική μετασχηματισμού δεδομένων σε πολλά βήματα, επιτρέπουμε με αυτόν τον τρόπο την ευρύτερη χρήση των εργαλείων γενικού σκοπού. Εμπειρικά με τη χρήση αρκετών παραδειγμάτων βρήκαμε ότι η διαδικασία της μετατροπής δεδομένων μπορεί να "σπάσει "σε πολλά μικρότερα βήματα γενικού σκοπού. Τα εργαλεία που χρησιμοποιήσαμε σε αυτά τα βήματα ήταν σχεδιασμένα όσο το δυνατόν πιο στοιχειώδη, ώστε να αυξήσουν την πιθανότητα της επαναχρησιμοποίησής τους. Όσο μικρότερα είναι τα βήματα, τόσο γενικότερη χρησιμότητα αποκτούν. Με τη χρήση των εργαλείων γενικού σκοπού και της ημιαυτόματης εκτέλεσης πετύχαμε να μειώσουμε τον χρόνο εκτέλεσης, την ανθρώπινη επέμβαση και βελτιώσαμε την τεχνική επεξεργασίας λαθών. Η εφαρμογή Trial & Error χρησιμοποιεί ένα υπάρχον Σύστημα Διαχείρισης Ροών Εργασιών προκειμένου να συσχετίσει κάθε βήμα μετασχηματισμού δεδομένων με μια εργασία του διαγράμματος ροής. Επεκτείναμε τη λειτουργικότητα του Συστήματος Διαχείρισης Ροών Εργασιών με την ενσωμάτωση κάποιων κομματιών προγραμματιστικού κώδικα, ώστε να υποστηριχθεί η ροή ελέγχου. Για μια συγκεκριμένη διαδικασία μετασχηματισμού επιλέγουμε εφαρμογές λογισμικού ή δημιουργούμε μικρά τμήματα λογισμικού, κατάλληλα στις απαιτήσεις μας, και τα ενσωματώνουμε στο Σύστημα Διαχείρισης Ροών Εργασιών ως εργασίες. Η εφαρμογή μας υποστηρίζει τόσο τη δημιουργία όσο και την εκτέλεση στιγμιοτύπων διαγραμμάτων ροής της εργασίας. Υποστηρίζει επίσης την αποθήκευση και την εκτέλεση επερωτήσεων στις πληροφορίες προέλευσης των δεδομένων για κάθε στιγμιότυπο διαγράμματος ροής της εργασίας κάτι πολύ σημαντικό σε αυτήν την περιοχή. Επιδεικνύουμε την εφαρμογή μας μετατρέποντας πρωτογενή σώματα δεδομένων υπό μορφή Microsoft Word σε μορφή συμβατή με το μοντέλο RDF CIDOC CRM. Αυτή η εργασία παρουσιάζει μια νέα εφαρμογή για μετατροπή και τον καθαρισμό δεδομένων και προτείνει μια λύση για όλες τις περιοχές επιστήμης που χρειάζονται να μετατρέψουν δεδομένα τους υπάρχουν σε βιβλία και σώματα κειμένων σε ψηφιακή μορφή. |
|||
Φυσική περιγραφή | viii, 118 σ. : εικ. ; 30 cm. | |||
Γλώσσα | Αγγλικά | |||
Ημερομηνία έκδοσης | 2008-07-22 | |||
Συλλογή | Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης | |||
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης | ||||
Εμφανίσεις | 676 |
Ψηφιακά τεκμήρια | |
---|---|
![]() |
Κατέβασμα Εγγράφου |