Popis: |
Abstract—Our world has recently witnessed the explosive growth of IoT networks as one of the pillars of the 4th industrial revolution. Malware on IoT devices also grows accordingly in number and sophisticated techniques. Therefore, it is necessary to come up with more efficient approaches to IoT malware detection with machine learning models that can be used in solutions using limited resources. In this paper, we study and evaluate the efficiency of using a weight of term frequency– inverse document frequency model in feature selection method combined with an effective machine learning model in IoT malware detection based on opcode sequence features. We performed experiments on a MIPS ELF dataset that included 4,511 malicious samples with main four classes and 4,393 benign programs. Experiment results show that our proposed method has very good performance on the above dataset with detection and classification accuracy which are 99.8% and 95.8% respectively while the models only use 20 opcodes that have the highest weight values. Tóm tắt— Cuộc cách mạng công nghiệp lần thứ 4 với sự phát triển của các thiết bị IoT đã và đang ảnh hưởng sâu rộng đến các lĩnh vực trong đời sống xã hội. Các mã độc trên thiết bị IoT ngày càng gia tăng về số lượng và sử dụng các kỹ thuật lẩn tránh tinh vi. Điều này đòi hỏi cần có các phương pháp tiếp cận hiệu quả hơn trong phát hiện mã độc trên thiết bị IoT với các mô hình học máy hiệu quả, có khả năng ứng dụng trong các giải pháp đảm bảo an toàn thông tin có tài nguyên hạn chế. Trong bài báo này, chúng tôi nghiên cứu và đánh giá hiệu quả của việc\ xác định trọng số trong tìm kiếm truy xuất thông tin trong phương pháp trích chọn đặc trưng kết hợp mô hình học máy hiệu quả cho việc phát hiện mã độc IoT dựa trên đặc trưng chuỗi opcode. Chúng tôi đã tiến hành thử nghiệm với một tập dữ liệu MIPS ELF gồm 4.511 mẫu độc hại với 4 loại chính và 4.393 chương trình lành tính. Các kết quả thực nghiệm đã chứng minh rằng phương pháp của bài báo đề xuất cho kết quả tốt đối với tập dữ liệu nêu trên, tỉ lệ phát hiện và phân 4 loại mã độc cao nhất tương ứng là 99.8% và 95.8% khi chỉ cần sử dụng 20 opcode có giá trị trọng số cao nhất. |