ضرورت یادگیری ماشینی در تشخیص بدافزار
تا به امروز، بدافزار همچنان یکی از مؤثرترین ابزارهای مورد استفاده جهت حمله است که اغلب برای مقابله با آن و پیشگیری و شناسایی رخنه بدافزارها در سیستمها، از ابزارهای امنیتی مبتنی بر یادگیری ماشین استفاده میشود.
نیزی راستوگی، استادیار مؤسسه فناوری روچستر، در این باره میگوید ابزارهای امنیتی یادگیری ماشین تقریباً آنقدر که به نظر میآید مؤثر نیستند زیرا موانع مختلفی بر سر راه آنها قرار دارند. راستوگی در کنفرانس انیگما 2022 که در 2 فوریه برگزار شد به شرح دیدگاههای خود در مورد محدودیتهای یادگیری ماشین در مقوله امنیت پرداخت و راهحل بالقوهای تحت عنوان امنیت محتوایی را در این جلسه ارائه داد.
یکی از چالشهای کلیدی که اخیرا در مورد امنیت یادگیری ماشینی به آن پرداخته شده است مسئله هشداردهیهای نادرست است. راستوگی توضیح داد که این هشدارهای نادرست هم سبب اتلاف وقت سازمانها میشود و هم یک خلاء امنیتی است که به طور بالقوه یک سازمان را در معرض خطرپذیریهای غیرضروری قرار میدهد.
راستوگی گفت: “حل مسئله هشدارهای کاذب منفی و مثبت بسیار دشوار است.”
چرا الگو های یادگیری ماشینی هشدارهای نادرست تولید میکنند؟
از بین دلایل مهمی که سبب تولید هشدارهای نادرست توسط الگوهای یادگیری ماشین میشود؛ میتوان به ناکافی بودن دادههای ارائه شده اشاره کرد. در تعریف یادگیری ماشین باید گفت؛ رویکردی است که در آن یک ماشین یاد میگیرد چگونه کاری را انجام دهد و با نوعی آموزش در قالب یک مجموعه داده فعال میشود. چنانچه مجموعه دادههای آموزشی حاوی همه داده های صحیح نباشد، شناسایی دقیق همه بدافزارها نیز ممکن نخواهد بود. راستوگی گفت که یکی از راههای ممکن برای ارتقاء بهبود الگوهای امنیتی یادگیری ماشین، یکپارچهسازی یک الگوی یادگیری مداوم است. در این رویکرد، با کشف ابزارهای حمله و آسیب پذیری های جدید، داده های جدید هم به طور مداوم برای آموزش سیستم یادگیری ماشین ارائه میگردند.
افزودن محتوا برای افزایش کارایی شناسایی بدافزار
با این حال، دریافت دادههای درست بمنظور آموزش یک الگو، در عمل بسیار دشوار است. راستوگی ارائه محتوای مضاعف را به عنوان فرصتی برای بهبود الگوهای شناسایی بدافزار و یادگیری ماشین پیشنهاد میکند.محتوای مضاعف را میتوان از منابع طرف سوم یا هوش منبع باز تهدیدات (اوسینت(OSINT)) استخراج کرد. این منابع گزارشها و تحلیلهای تهدید در مورد حملات جدیدی که اخیرا به وقوع پیوستهاند را ارائه میکنند. چالشی که در ارتباط با اوسینت وجود دارد معمولا فاقد ساختار بودن دادهها، پستهای وبلاگ و سایر فرمتهایی است که برای آموزش یک الگوی یادگیری ماشین بهخوبی کار نمیکنند.راستوگی در این خصوص گفت: “این گزارشها به زبانی قابل فهم برای انسان نوشته شدهاند و بدین ترتیب محتوای ارائه شده در آنها امکان تبدیل شدن به کد را ندارند”.
استفاده از نمودارهای دانش برای امنیت محتوایی
اکنون این سوال مطرح میشود که دادههای فاقد ساختار چگونه میتوانند به یادگیری ماشینی و بهبود تشخیص بدافزار کمک کنند؟ راستوگی و تیمش در تلاش هستند تا از رویکردی به نام نمودار دانش استفاده کنند.یک نمودار دانش از آنچه به عنوان پایگاه داده نمودار شناخته میشود بهره میبرد که ارتباط بین نقاط مختلف داده را ترسیم میکند. به گفته راستوگی، بزرگترین مزیت استفاده از نمودارهای دانش این است که مسیر دریافت و درک بهتر اطلاعات فاقد ساختار نوشته شده به زبان قابل درک برای انسان را هموار میسازد. او گفت: «تمامی دادههای ادغام شده بر روی یک نمودار دانش، قادرند به شناسایی یا استنباط الگوهای حمله در زمان شکل گرفتن یک تهدید بدافزاری کمک کنند». این مزیت استفاده از نمودارهای دانش و همان چیزی است که تحقیقات ما آن در پی آن است.»به گفته راستوگی؛ افزودن محتوا و اطلاعات مکانی داده در ردیابی منبع دادهها و راستی آزمایی آنها بسیار موثر است و به بهبود دقت کلی تشخیص بدافزار منجر خواهد شد.او افزود: “ما باید با استفاده از امتیازدهیهای درست و دقیق در مورد ارزیابی عملکرد الگوهای یادگیری ماشین گامی فراتر بگذاریم. هدف ما کمک به تحلیلگران از طریق استنباط درست و مطمئن محتوا است