Δημοσίευση στο επιστημονικό συνέδριο ICCSA’2023
Με χαρά σας ανακοινώνουμε ότι η εργασία μας με τίτλο “An empirical comparison of Transformer-based models in Vulnerability Prediction” έχει γίνει δεκτή στο επιστιμονικό συνέδριο με τίτλο “International Conference on Computational Science and Its Applications (ICCSA 2023)”.
Μια έκδοση μπορεί να βρεθεί στον παρακάτω σύνδεσμο:
Στην παρούσα εργασία, εξετάζουμε την ικανότητα διαφόρων μοντέλων που βασίζονται σε Transformer να προβλέπουν την ύπαρξη ευπάθειων λογισμικού. Η αυξανόμενη άνθηση των γλωσσικών μοντέλων παρέχει μια νέα κατεύθυνση για την αντιμετώπιση μεταγενέστερων εργασιών, όπως η ταξινόμηση κειμένου. Η πρόβλεψη ευπαθειών είναι ένα πρόβλημα που έχει συνδεθεί σε μεγάλο βαθμό με τεχνικές εξόρυξης κειμένου και ως εκ τούτου μπορεί να επωφεληθεί από τα προ-εκπαιδευμένα μοντέλα επεξεργασίας φυσικής γλώσσας (NLP). Συγκεκριμένα, εξετάσαμε εμπειρικά μια πληθώρα προ-εκπαιδευμένων μοντέλων NLP στο μεταγενέστερο έργο της πρόβλεψης ευπαθειών με βάση την εξόρυξη κειμένου, αναδεικνύοντας τυχόν πιθανές διαφορές στις επιδόσεις τους και, ως εκ τούτου, προσδιορίζοντας τη βέλτιστη επιλογή μεταξύ τους. Για τον σκοπό αυτό, προσαρμόσαμε διάφορα μεγάλα προ-εκπαιδευμένα μοντέλα σε ένα σύνολο δεδομένων με ετικέτες που σχετίζονται με την ευπάθεια. Αξιολογήσαμε τα BERT, GPT-2, BART και διάφορες παραλλαγές του BERT. Τα ευρήματα δείχνουν ότι το CodeBERT, το οποίο δεν έχει προ-εκπαιδευτεί μόνο στη φυσική γλώσσα αλλά σε ζεύγη NL και PL, αποδείχθηκε το ανώτερο μοντέλο στην ανάλυσή μας. Πρέπει επίσης να παρατηρήσουμε ότι το BERT επιτυγχάνει επιδόσεις κοντά στο CodeBERT, ακόμη και αν δεν έχει προ-εκπαιδευτεί σε γλώσσες προγραμματισμού.
Η παρούσα επιστημονική εργασία αποτελεί μέρος του έργου VM4SEC.