Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ систСмы кибСрбСзопасности всё Ρ‡Π°Ρ‰Π΅ ΠΏΠΎΠ»Π°Π³Π°ΡŽΡ‚ΡΡ Π½Π° Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния для обнаруТСния Π°Π½ΠΎΠΌΠ°Π»ΠΈΠΉ Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. Однако ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½ΠΎ с Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ΠΌ Π·Π°Ρ‰ΠΈΡ‚Π½Ρ‹Ρ… ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ² ΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΡƒΡŽΡ‚ΡΡ ΠΈ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΈΡ… ΠΎΠ±Ρ…ΠΎΠ΄Π°, извСстныС Π² индустрии ΠΊΠ°ΠΊ defense evasion. Π—Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ слоТныС матСматичСскиС ΠΏΡ€ΠΈΠ΅ΠΌΡ‹, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π·Π°ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ врСдоносный ΠΊΠΎΠ΄ ΠΈΠ»ΠΈ аномальноС ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΏΠΎΠ΄ Π»Π΅Π³ΠΈΡ‚ΠΈΠΌΠ½ΡƒΡŽ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ, дСлая Π΅Π³ΠΎ Π½Π΅Π²ΠΈΠ΄ΠΈΠΌΡ‹ΠΌ для классичСских сигнатурных Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ².

Π’ контСкстС искусствСнного ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚Π° эта ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠ° ΠΏΡ€ΠΈΠΎΠ±Ρ€Π΅Ρ‚Π°Π΅Ρ‚ Π½ΠΎΠ²Ρ‹ΠΉ ΠΌΠ°ΡΡˆΡ‚Π°Π±, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ ML уязвимы ΠΊ спСцифичСским Π°Ρ‚Π°ΠΊΠ°ΠΌ, Ρ‚Π°ΠΊΠΈΠΌ ΠΊΠ°ΠΊ adversarial examples. ПониманиС ΠΏΡ€ΠΈΠ½Ρ†ΠΈΠΏΠΎΠ² Ρ€Π°Π±ΠΎΡ‚Ρ‹ этих Ρ‚Π΅Ρ…Π½ΠΈΠΊ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ спСциалистам ΠΏΠΎ бСзопасности для построСния Π½Π°Π΄Π΅ΠΆΠ½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ Π·Π°Ρ‰ΠΈΡ‚Ρ‹ ΠΏΠ΅Ρ€ΠΈΠΌΠ΅Ρ‚Ρ€Π° ΠΊΠΎΡ€ΠΏΠΎΡ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΉ сСти. Π’ Π΄Π°Π½Π½ΠΎΠΉ ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΌΡ‹ Π΄Π΅Ρ‚Π°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Π±Π΅Ρ€Π΅ΠΌ ΠΌΠ΅Ρ…Π°Π½ΠΈΠΊΡƒ скрытия ΡƒΠ³Ρ€ΠΎΠ· ΠΈ стратСгии противодСйствия.

ΠšΠΎΠ½Ρ†Π΅ΠΏΡ‚ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ основы ΠΎΠ±Ρ…ΠΎΠ΄Π° Π·Π°Ρ‰ΠΈΡ‚Ρ‹ Π² ML

Основная Ρ†Π΅Π»ΡŒ Ρ‚Π΅Ρ…Π½ΠΈΠΊ defense evasion Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡ‚ΡŒ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ Ρ‚Π°ΠΊΠΈΠΌ ΠΎΠ±Ρ€Π°Π·ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ модСль классификации ошиблась, ΠΏΡ€ΠΈ этом сохранив Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ Π°Ρ‚Π°ΠΊΠΈ. Π­Ρ‚ΠΎ достигаСтся Π·Π° счСт эксплуатации "слСпых Π·ΠΎΠ½" Π² ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ нСйросСти. ΠΡ‚Π°ΠΊΡƒΡŽΡ‰ΠΈΠ΅ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ для поиска ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹Ρ… Π²ΠΎΠ·ΠΌΡƒΡ‰Π΅Π½ΠΈΠΉ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½Ρ‹ для чСловСчСского Π³Π»Π°Π·Π°, Π½ΠΎ ΠΊΠ°Ρ€Π΄ΠΈΠ½Π°Π»ΡŒΠ½ΠΎ ΠΌΠ΅Π½ΡΡŽΡ‚ Π²Ρ‹Π²ΠΎΠ΄ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°.

БущСствуСт Π΄Π²Π° основных ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π° ΠΊ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚Π°ΠΊΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…: Π°Ρ‚Π°ΠΊΠΈ с Π±Π΅Π»Ρ‹ΠΌ ящиком, ΠΊΠΎΠ³Π΄Π° Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΡƒ извСстна Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° ΠΈ вСса ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΈ Π°Ρ‚Π°ΠΊΠΈ с Ρ‡Π΅Ρ€Π½Ρ‹ΠΌ ящиком, основанныС Π½Π° Π°Π½Π°Π»ΠΈΠ·Π΅ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… систСмы. ΠšΡ€ΠΈΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠΌ уязвимым мСстом являСтся Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈ часто ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‚ΡΡ Π½Π° ΡˆΡƒΠΌΠ½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ Π½Π΅ ΠΎΠ±Π»Π°Π΄Π°ΡŽΡ‚ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ ΠΊ ΠΌΠ°Π»Ρ‹ΠΌ измСнСниям Π² ΠΌΠ½ΠΎΠ³ΠΎΠΌΠ΅Ρ€Π½ΠΎΠΌ пространствС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ².

Π’Π°ΠΆΠ½ΠΎ Ρ€Π°Π·Π»ΠΈΡ‡Π°Ρ‚ΡŒ статичСский ΠΈ динамичСский Π°Π½Π°Π»ΠΈΠ· ΡƒΠ³Ρ€ΠΎΠ·. Если статичСский Π°Π½Π°Π»ΠΈΠ· ΠΈΠ·ΡƒΡ‡Π°Π΅Ρ‚ ΠΊΠΎΠ΄ Π±Π΅Π· Π΅Π³ΠΎ запуска, Ρ‚ΠΎ динамичСский Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ исполнСния ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹ Π² ΠΈΠ·ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Π½Π½ΠΎΠΉ срСдС. ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΎΠ±Ρ…ΠΎΠ΄Π° Π·Π°Ρ‰ΠΈΡ‚Ρ‹ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Ρ€Π°Π·Π½ΠΈΡ†Ρƒ Π² ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠΈ ΠΊΠΎΠ΄Π° Π² зависимости ΠΎΡ‚ окруТСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ дСтСктирования.

ΠšΠ»Π°ΡΡΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΡ Ρ‚Π΅Ρ…Π½ΠΈΠΊ adversarial attacks

Π’Π΅Ρ…Π½ΠΈΠΊΠΈ Π°Ρ‚Π°ΠΊ ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚ΡŒ Π½Π° нСсколько ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ Π² зависимости ΠΎΡ‚ Ρ‚ΠΎΠ³ΠΎ, Π½Π° ΠΊΠ°ΠΊΠΎΠΌ этапС ΠΆΠΈΠ·Π½Π΅Π½Π½ΠΎΠ³ΠΎ Ρ†ΠΈΠΊΠ»Π° ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ½ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ. НаиболСС распространСнной являСтся катСгория Π°Ρ‚Π°ΠΊ Π½Π° этапС инфСрСнса, ΠΊΠΎΠ³Π΄Π° модСль ΡƒΠΆΠ΅ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚Π° ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ для принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ. Π—Π΄Π΅ΡΡŒ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ ΠΏΠΎΠ΄ΠΌΠ΅Π½Ρ‹ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ….

Π’Ρ‚ΠΎΡ€ΠΎΠΉ Ρ‚ΠΈΠΏ β€” это Π°Ρ‚Π°ΠΊΠΈ Π½Π° этапС обучСния, извСстныС ΠΊΠ°ΠΊ poisoning attacks. Π’ этом случаС Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊ внСдряСт врСдоносныС Π΄Π°Π½Π½Ρ‹Π΅ Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ, заставляя модСль Π²Ρ‹ΡƒΡ‡ΠΈΡ‚ΡŒ ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½Ρ‹Π΅ закономСрности ΠΈΠ»ΠΈ создавая "бэкдоры" для Π±ΡƒΠ΄ΡƒΡ‰Π΅Π³ΠΎ использования. Π’Π°ΠΊΠΈΠ΅ Π°Ρ‚Π°ΠΊΠΈ особСнно опасны Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΈΡ… слоТно ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΡ‚ΡŒ послС обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Π’Ρ€Π΅Ρ‚ΠΈΠΉ Ρ‚ΠΈΠΏ связан с ΠΊΡ€Π°ΠΆΠ΅ΠΉ самой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ»ΠΈ Π΅Ρ‘ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· Π°Π½Π°Π»ΠΈΠ· ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² систСмы. Π­Ρ‚ΠΎ позволяСт ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ Ρ‚ΠΎΡ‡Π½ΡƒΡŽ копию Π·Π°Ρ‰ΠΈΡ‚Π½ΠΎΠ³ΠΎ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° ΠΈ ΠΏΡ€ΠΎΡ‚Π΅ΡΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½Π° Π½Π΅ΠΉ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ Π°Ρ‚Π°ΠΊΠΈ Π±Π΅Π· риска Π±Ρ‹Ρ‚ΡŒ Π·Π°Π±Π»ΠΎΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΌ Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΉ систСмой Π·Π°Ρ‰ΠΈΡ‚Ρ‹.

  • 🧩 FGSM (Fast Gradient Sign Method) β€” быстрый ΠΌΠ΅Ρ‚ΠΎΠ΄ создания adversarial ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² Π½Π° основС Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π° Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ.
  • 🎯 Targeted Attacks β€” Π°Ρ‚Π°ΠΊΠΈ, Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½Ρ‹Π΅ Π½Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ модСль классифицировала Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΊΠ°ΠΊ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹ΠΉ, Π²Ρ‹Π±Ρ€Π°Π½Π½Ρ‹ΠΉ Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰ΠΈΠΌ класс.
  • 🌫️ Untargeted Attacks β€” Π°Ρ‚Π°ΠΊΠΈ, Ρ†Π΅Π»ΡŒ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… просто Π²Ρ‹Π·Π²Π°Ρ‚ΡŒ ΠΎΡˆΠΈΠ±ΠΊΡƒ классификации, Π½Π΅Π²Π°ΠΆΠ½ΠΎ ΠΊΠ°ΠΊΡƒΡŽ ΠΈΠΌΠ΅Π½Π½ΠΎ.
  • πŸ”„ Transferability β€” свойство adversarial ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ², ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰Π΅Π΅ Π°Ρ‚Π°ΠΊΠ΅, созданной для ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ ΠΈ Π½Π° Π΄Ρ€ΡƒΠ³ΠΎΠΉ.

ΠœΠ΅Ρ‚ΠΎΠ΄Ρ‹ скрытия врСдоносного ΠΊΠΎΠ΄Π° (Obfuscation)

Для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ defense evasion Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ обфускации ΠΊΠΎΠ΄Π°, Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΠΎΠ΄ особСнности ML-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ΠžΠ±Ρ„ΡƒΡΠΊΠ°Ρ†ΠΈΡ мСняСт прСдставлСниС ΠΊΠΎΠ΄Π°, сохраняя Π΅Π³ΠΎ Π»ΠΎΠ³ΠΈΠΊΡƒ, Ρ‡Ρ‚ΠΎ сбиваСт с Ρ‚ΠΎΠ»ΠΊΡƒ статичСскиС Π°Π½Π°Π»ΠΈΠ·Π°Ρ‚ΠΎΡ€Ρ‹, основанныС Π½Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°Ρ… Π±Π°ΠΉΡ‚-ΠΊΠΎΠ΄Π° ΠΈΠ»ΠΈ AST-Π΄Π΅Ρ€Π΅Π²ΡŒΠ΅Π².

Одним ΠΈΠ· эффСктивных ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² являСтся ΡƒΠΏΠ°ΠΊΠΎΠ²ΠΊΠ° исполняСмых Ρ„Π°ΠΉΠ»ΠΎΠ² ΠΈ использованиС ΠΏΠΎΠ»ΠΈΠΌΠΎΡ€Ρ„Π½Ρ‹Ρ… Π΄Π²ΠΈΠΆΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΏΠΈΡΡ‹Π²Π°ΡŽΡ‚ ΠΊΠΎΠ΄ ΠΏΡ€ΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠΌ запускС. Π’ контСкстС ML это создаСт ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡƒ разрСТСнности ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ², Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ модСль Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π°ΠΉΡ‚ΠΈ устойчивыС ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹ Π² постоянно ΠΌΠ΅Π½ΡΡŽΡ‰Π΅ΠΉΡΡ структурС Ρ„Π°ΠΉΠ»Π°.

Π’Π°ΠΊΠΆΠ΅ ΡˆΠΈΡ€ΠΎΠΊΠΎ примСняСтся Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° dead code insertion ΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ порядка инструкций. Π­Ρ‚ΠΎ ΡƒΠ²Π΅Π»ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ ΡΠ½Ρ‚Ρ€ΠΎΠΏΠΈΡŽ Ρ„Π°ΠΉΠ»Π° ΠΈ Π½Π°Ρ€ΡƒΡˆΠ°Π΅Ρ‚ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒ Π½Π΅ΠΉΡ€ΠΎΡΠ΅Ρ‚ΡŒ. Π‘ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½Ρ‹Π΅ adversarial сСти (GAN) ΠΌΠΎΠ³ΡƒΡ‚ автоматичСски Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π²Π°Ρ€ΠΈΠ°Ρ†ΠΈΠΈ врСдоносного ΠΊΠΎΠ΄Π°, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ проходят ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΡƒ эвристичСских Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ².

πŸ“Š Какой Ρ‚ΠΈΠΏ Π°Ρ‚Π°ΠΊΠΈ Π½Π° ML Π²Ρ‹ считаСтС Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ опасным?
  • Атаки Π½Π° этапС обучСния (Poisoning)
  • Атаки Π½Π° этапС инфСрСнса (Evasion)
  • ΠšΡ€Π°ΠΆΠ° ΠΌΠΎΠ΄Π΅Π»ΠΈ (Extraction)
  • ГСнСрация Π³Π»ΡƒΠ±ΠΎΠΊΠΈΡ… ΠΏΠΎΠ΄Π΄Π΅Π»ΠΎΠΊ (Deepfakes)

Атаки Π½Π° этапС обучСния: Poisoning ΠΈ Backdoors

Атаки Ρ‚ΠΈΠΏΠ° poisoning ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ собой Π²Π½Π΅Π΄Ρ€Π΅Π½ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅ΠΌΡ‹Ρ… искаТСний Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΠΉ датасСт. Если Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊ ΠΏΠΎΠ»ΡƒΡ‡Π°Π΅Ρ‚ доступ ΠΊ Π΄Π°Π½Π½Ρ‹ΠΌ, Π½Π° ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… обучаСтся модСль, ΠΎΠ½ ΠΌΠΎΠΆΠ΅Ρ‚ "ΠΎΡ‚Ρ€Π°Π²ΠΈΡ‚ΡŒ" Π΅Ρ‘, Π²Π½Π΅Π΄Ρ€ΠΈΠ² скрытыС Ρ‚Ρ€ΠΈΠ³Π³Π΅Ρ€Ρ‹. ВпослСдствии, ΠΏΡ€ΠΈ ΠΏΡ€Π΅Π΄ΡŠΡΠ²Π»Π΅Π½ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄Π°Π½Π½Ρ‹Ρ… с ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌ ΠΌΠ°Ρ€ΠΊΠ΅Ρ€ΠΎΠΌ, ΠΎΠ½Π° Π±ΡƒΠ΄Π΅Ρ‚ Π²Ρ‹Π΄Π°Π²Π°Ρ‚ΡŒ прСдсказанный Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚, игнорируя Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠ΅ содСрТимоС.

Π­Ρ‚ΠΎΡ‚ ΠΌΠ΅Ρ‚ΠΎΠ΄ особСнно эффСктивСн ΠΏΡ€ΠΎΡ‚ΠΈΠ² систСм, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰ΠΈΡ… Π½Π΅ΠΏΡ€Π΅Ρ€Ρ‹Π²Π½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° Π½ΠΎΠ²Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…. ΠœΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ Π·Π°Ρ‰ΠΈΡ‚Ρ‹ часто Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΡ‚ΡŒ Π»Π΅Π³ΠΈΡ‚ΠΈΠΌΠ½Ρ‹Π΅ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΡ‚ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ сформированных Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰ΠΈΠΌ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ статистичСски ΠΎΠ½ΠΈ ΠΌΠΎΠ³ΡƒΡ‚ Π²Ρ‹Π³Π»ΡΠ΄Π΅Ρ‚ΡŒ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎ.

Для Π·Π°Ρ‰ΠΈΡ‚Ρ‹ ΠΎΡ‚ Ρ‚Π°ΠΊΠΈΡ… ΡƒΠ³Ρ€ΠΎΠ· Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π²Π½Π΅Π΄Ρ€ΡΡ‚ΡŒ строгий ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ цСлостности ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΠΈΡ… Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ robust training. Π’Π°ΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹, устойчивыС ΠΊ выбросам, ΠΈ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π²Π°Π»ΠΈΠ΄Π°Ρ†ΠΈΡŽ Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΠ΅Ρ€Π΅Π΄ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ обучСния.

⚠️ Π’Π½ΠΈΠΌΠ°Π½ΠΈΠ΅: ИспользованиС ΠΏΡƒΠ±Π»ΠΈΡ‡Π½Ρ‹Ρ… датасСтов Π±Π΅Π· ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ очистки ΠΈ Π²Π΅Ρ€ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ создаСт высокий риск внСдрСния бэкдоров Π² модСль Π΅Ρ‰Π΅ Π½Π° этапС Π΅Ρ‘ создания.

Анализ уязвимостСй популярных Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠΎΠ²

ΠŸΠΎΠΏΡƒΠ»ΡΡ€Π½Ρ‹Π΅ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ для машинного обучСния, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ TensorFlow, PyTorch ΠΈ Scikit-learn, ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ Π½Π΅ ΠΈΠΌΠ΅ΡŽΡ‚ встроСнной Π·Π°Ρ‰ΠΈΡ‚Ρ‹ ΠΎΡ‚ adversarial Π°Ρ‚Π°ΠΊ. Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ часто Ρ„ΠΎΠΊΡƒΡΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π½Π° точности ΠΌΠΎΠ΄Π΅Π»ΠΈ, игнорируя Π΅Ρ‘ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒ ΠΊ Ρ†Π΅Π»Π΅Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½Ρ‹ΠΌ манипуляциям Π²Ρ…ΠΎΠ΄Π½Ρ‹ΠΌΠΈ Π΄Π°Π½Π½Ρ‹ΠΌΠΈ.

Π‘ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ для создания Π°Ρ‚Π°ΠΊ, Ρ‚Π°ΠΊΠΈΠ΅ ΠΊΠ°ΠΊ Adversarial Robustness Toolbox (ART) ΠΈΠ»ΠΈ CleverHans, находятся Π² ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΊΠ°ΠΌ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ слоТныС adversarial ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹. Π­Ρ‚ΠΎ Π΄Π΅ΠΌΠΎΠΊΡ€Π°Ρ‚ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ созданиС ΡƒΠ³Ρ€ΠΎΠ· ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ ΠΎΡ‚ Π·Π°Ρ‰ΠΈΡ‚Π½ΠΈΠΊΠΎΠ² постоянного обновлСния своих стратСгий.

Уязвимости часто ΠΊΡ€ΠΎΡŽΡ‚ΡΡ Π½Π΅ Π² самих Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠ°Ρ…, Π° Π² ΠΈΡ… Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ. НапримСр, Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Π°Ρ нормализация Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ»ΠΈ использованиС слишком простых Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ нСйросСтСй ΠΎΠ±Π»Π΅Π³Ρ‡Π°Π΅Ρ‚ Π·Π°Π΄Π°Ρ‡Ρƒ Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰Π΅ΠΌΡƒ.

ΠŸΠΎΡ‡Π΅ΠΌΡƒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ Ρ‚Π°ΠΊ эффСктивны?

Π“Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ эффСктивны, ΠΏΠΎΡ‚ΠΎΠΌΡƒ Ρ‡Ρ‚ΠΎ ΠΎΠ½ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΡƒΡŽ структуру самой ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΡ€ΠΎΡ‚ΠΈΠ² Π½Π΅Ρ‘. Вычисляя Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ ΠΎΡ‚Π½ΠΎΡΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ…, Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰ΠΈΠΉ Π½Π°Ρ…ΠΎΠ΄ΠΈΡ‚ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ малСйшСС ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π²Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ Π²Π΅ΠΊΡ‚ΠΎΡ€Π° ΠΏΡ€ΠΈΠ²ΠΎΠ΄ΠΈΡ‚ ΠΊ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠΌΡƒ росту ошибки прСдсказания. Π­Ρ‚ΠΎ позволяСт Π²Π½ΠΎΡΠΈΡ‚ΡŒ измСнСния, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ для Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ° ΡΠ²Π»ΡΡŽΡ‚ΡΡ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½Ρ‹ΠΌ ΡˆΡƒΠΌΠΎΠΌ, Π½ΠΎ для ΠΌΠΎΠ΄Π΅Π»ΠΈ становятся Ρ€Π΅ΡˆΠ°ΡŽΡ‰ΠΈΠΌ Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΎΠΌ.

Π‘Ρ‚Ρ€Π°Ρ‚Π΅Π³ΠΈΠΈ Π·Π°Ρ‰ΠΈΡ‚Ρ‹ ΠΈ обнаруТСния evasion-Π°Ρ‚Π°ΠΊ

Π—Π°Ρ‰ΠΈΡ‚Π° ΠΎΡ‚ Ρ‚Π΅Ρ…Π½ΠΈΠΊ defense evasion Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ комплСксного ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Π°, извСстного ΠΊΠ°ΠΊ adversarial training. Π‘ΡƒΡ‚ΡŒ ΠΌΠ΅Ρ‚ΠΎΠ΄Π° Π·Π°ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ adversarial ΠΏΡ€ΠΈΠΌΠ΅Ρ€Ρ‹ Π² процСссС обучСния ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΡ‚ΡŒ ΠΈΡ… Π² Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΉ Π½Π°Π±ΠΎΡ€ с ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹ΠΌΠΈ ΠΌΠ΅Ρ‚ΠΊΠ°ΠΌΠΈ. Π­Ρ‚ΠΎ "закаляСт" модСль, дСлая Π΅Ρ‘ ΠΌΠ΅Π½Π΅Π΅ Ρ‡ΡƒΠ²ΡΡ‚Π²ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΊ ΠΌΠ°Π»Ρ‹ΠΌ возмущСниям.

Π”Ρ€ΡƒΠ³ΠΈΠΌ эффСктивным ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠΌ являСтся defensive distillation. Π­Ρ‚ΠΎΡ‚ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ‚ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π²Ρ‚ΠΎΡ€ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π° вСроятностных Π²Ρ‹Ρ…ΠΎΠ΄Π°Ρ… ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π­Ρ‚ΠΎ сглаТиваСт ΠΏΠΎΠ²Π΅Ρ€Ρ…Π½ΠΎΡΡ‚ΡŒ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π°, дСлая Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Π½Ρ‹Π΅ Π°Ρ‚Π°ΠΊΠΈ ΠΌΠ΅Π½Π΅Π΅ эффСктивными, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π³Ρ€Π°Π΄ΠΈΠ΅Π½Ρ‚Ρ‹ становятся слишком ΠΌΠ°Π»Ρ‹ΠΌΠΈ для практичСского использования.

Π’Π°ΠΊΠΆΠ΅ Π²Π°ΠΆΠ½ΠΎ Π²Π½Π΅Π΄Ρ€ΡΡ‚ΡŒ систСмы ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π° Π°Π½ΠΎΠΌΠ°Π»ΠΈΠΉ Π½Π° Π²Ρ…ΠΎΠ΄Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ. Если Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ статистичСски ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΎΡ‚ Π½ΠΎΡ€ΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния ΠΈΠ»ΠΈ содСрТат ΠΏΠΎΠ΄ΠΎΠ·Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Π΅ ΠΏΠ°Ρ‚Ρ‚Π΅Ρ€Π½Ρ‹, систСма Π΄ΠΎΠ»ΠΆΠ½Π° Π±Π»ΠΎΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ запрос ΠΈΠ»ΠΈ ΠΏΠΎΠΌΠ΅Ρ‡Π°Ρ‚ΡŒ Π΅Π³ΠΎ для Ρ€ΡƒΡ‡Π½ΠΎΠΉ ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ.

β˜‘οΈ Π§Π΅ΠΊ-лист Π·Π°Ρ‰ΠΈΡ‚Ρ‹ ML-ΠΌΠΎΠ΄Π΅Π»ΠΈ

Π’Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΎ: 0 / 5

НС стоит Π·Π°Π±Ρ‹Π²Π°Ρ‚ΡŒ ΠΈ ΠΎ ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… сТатия ΠΈ квантования ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Π£ΠΏΡ€ΠΎΡ‰Π΅Π½ΠΈΠ΅ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρ‹ нСйросСти ΠΈΠ½ΠΎΠ³Π΄Π° ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π΅ΠΎΠΆΠΈΠ΄Π°Π½Π½ΠΎ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ Π΅Ρ‘ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΡƒΠ±ΠΈΡ€Π°Π΅Ρ‚ ΠΈΠ·Π±Ρ‹Ρ‚ΠΎΡ‡Π½Ρ‹Π΅ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ часто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰ΠΈΠΌΠΈ для поиска уязвимостСй.

ΠŸΡ€Π°ΠΊΡ‚ΠΈΡ‡Π΅ΡΠΊΠΈΠ΅ инструмСнты ΠΈ тСстированиС

Для ΠΎΡ†Π΅Π½ΠΊΠΈ устойчивости своих систСм спСциалисты ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ спСциализированныС Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠΈ. Одним ΠΈΠ· Π»ΠΈΠ΄Π΅Ρ€ΠΎΠ² Π² этой области являСтся Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° IBM ART, которая прСдоставляСт ΡƒΠ½ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ интСрфСйс для Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ дСсятков Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π°Ρ‚Π°ΠΊ ΠΈ Π·Π°Ρ‰ΠΈΡ‚Π½Ρ‹Ρ… ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠΎΠ².

ΠŸΡ€ΠΎΡ†Π΅ΡΡ тСстирования Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΊΠ»ΡŽΡ‡Π°Ρ‚ΡŒ Π² сСбя Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π°Π²Ρ‚ΠΎΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΡ€ΠΎΠ³ΠΎΠ½Ρ‹, Π½ΠΎ ΠΈ Ρ€ΡƒΡ‡Π½ΠΎΠΉ Π°Π½Π°Π»ΠΈΠ· ΠΎΡˆΠΈΠ±ΠΎΡ‡Π½Ρ‹Ρ… классификаций. ПониманиС Ρ‚ΠΎΠ³ΠΎ, ΠΏΠΎΡ‡Π΅ΠΌΡƒ модСль ошиблась, ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Π°ΠΌ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Ρ‚ΡŒ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ ΠΈ ΠΏΠΎΠ΄Π±ΠΈΡ€Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ Ρ€Π΅Π»Π΅Π²Π°Π½Ρ‚Π½Ρ‹Π΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ.

Π’Π°ΠΆΠ½ΠΎ ΠΏΡ€ΠΎΠ²ΠΎΠ΄ΠΈΡ‚ΡŒ рСгулярный Red Teaming, ΠΊΠΎΠ³Π΄Π° Π³Ρ€ΡƒΠΏΠΏΠ° спСциалистов пытаСтся Π²Π·Π»ΠΎΠΌΠ°Ρ‚ΡŒ систСму Π»ΡŽΠ±Ρ‹ΠΌΠΈ доступными ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ. Π­Ρ‚ΠΎ позволяСт Π²Ρ‹ΡΠ²ΠΈΡ‚ΡŒ логичСскиС уязвимости, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½Π΅ Π²ΠΈΠ΄Π½Ρ‹ ΠΏΡ€ΠΈ стандартном тСстировании.

ΠœΠ΅Ρ‚ΠΎΠ΄ Π°Ρ‚Π°ΠΊΠΈ Π£Ρ€ΠΎΠ²Π΅Π½ΡŒ доступа Π‘Π»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΠΈ Π­Ρ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ Π·Π°Ρ‰ΠΈΡ‚Ρ‹
FGSM Π‘Π΅Π»Ρ‹ΠΉ ящик Низкая БрСдняя (с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΎΠΉ)
Poisoning Доступ ΠΊ Π΄Π°Π½Π½Ρ‹ΠΌ Высокая Низкая (Ρ‚Ρ€ΡƒΠ΄Π½ΠΎ Π΄Π΅Ρ‚Π΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ)
Black Box Волько API БрСдняя Высокая (ΠΏΡ€ΠΈ ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π΅)
Model Extraction API с Π»ΠΈΠΌΠΈΡ‚Π°ΠΌΠΈ Высокая БрСдняя (ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠ΅ запросов)
πŸ’‘

Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠΉΡ‚Π΅ ensemble-ΠΌΠΎΠ΄Π΅Π»ΠΈ (ансамбли ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ) для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ устойчивости. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ прСдсказаний Π½Π΅ΡΠΊΠΎΠ»ΡŒΠΊΠΈΡ… Ρ€Π°Π·Π½Ρ‹Ρ… Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΠΎΠ² часто Π΄Π΅Π»Π°Π΅Ρ‚ систСму Π±ΠΎΠ»Π΅Π΅ robust ΠΊ adversarial Π°Ρ‚Π°ΠΊΠ°ΠΌ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Π°Ρ‚Π°ΠΊΠ°, эффСктивная для ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΌΠΎΠΆΠ΅Ρ‚ Π½Π΅ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ для Π΄Ρ€ΡƒΠ³ΠΎΠΉ.

ΠŸΠ΅Ρ€ΡΠΏΠ΅ΠΊΡ‚ΠΈΠ²Ρ‹ Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΡζ”»ι˜² (Attack-Defense)

Π‘ΡƒΠ΄ΡƒΡ‰Π΅Π΅ кибСрбСзопасности Π² эпоху ИИ β€” это постоянная Π³ΠΎΠ½ΠΊΠ° Π²ΠΎΠΎΡ€ΡƒΠΆΠ΅Π½ΠΈΠΉ. Π‘ появлСниСм Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (LLM) Π²Π΅ΠΊΡ‚ΠΎΡ€Ρ‹ Π°Ρ‚Π°ΠΊ ΡΠΌΠ΅Ρ‰Π°ΡŽΡ‚ΡΡ Π² сторону ΠΏΡ€ΠΎΠΌΠΏΡ‚-ΠΈΠ½ΠΆΠΈΠ½ΠΈΡ€ΠΈΠ½Π³Π° ΠΈ манипуляции контСкстом. Π’Π΅Ρ…Π½ΠΈΠΊΠΈ defense evasion Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΡƒΡŽΡ‚ΡΡ для ΠΎΠ±Ρ…ΠΎΠ΄Π° Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ² содСрТания ΠΈ этичСских ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡Π΅Π½ΠΈΠΉ нСйросСтСй.

ΠžΠΆΠΈΠ΄Π°Π΅Ρ‚ΡΡ рост использования Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½Ρ‹Ρ… Π°Π³Π΅Π½Ρ‚ΠΎΠ² ИИ ΠΊΠ°ΠΊ для Π°Ρ‚Π°ΠΊΠΈ, Ρ‚Π°ΠΊ ΠΈ для Π·Π°Ρ‰ΠΈΡ‚Ρ‹. Π’Π°ΠΊΠΈΠ΅ Π°Π³Π΅Π½Ρ‚Ρ‹ смогут Π² Ρ€Π΅Π°Π»ΡŒΠ½ΠΎΠΌ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠΎΠ²Π΅Π΄Π΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ‚ΠΈΠ²ΠΎΠΏΠΎΠ»ΠΎΠΆΠ½ΠΎΠΉ стороны ΠΈ Π°Π΄Π°ΠΏΡ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ свои стратСгии, Ρ‡Ρ‚ΠΎ ΠΏΡ€ΠΈΠ²Π΅Π΄Π΅Ρ‚ ΠΊ Π½ΠΎΠ²ΠΎΠΌΡƒ ΡƒΡ€ΠΎΠ²Π½ΡŽ слоТности ΠΊΠΈΠ±Π΅Ρ€ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚ΠΎΠ².

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌ Ρ‚Ρ€Π΅Π½Π΄ΠΎΠΌ станСт Ρ€Π°Π·Π²ΠΈΡ‚ΠΈΠ΅ объяснимого ИИ (XAI), ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ‚ спСциалистам ΠΏΠΎΠ½ΠΈΠΌΠ°Ρ‚ΡŒ Π»ΠΎΠ³ΠΈΠΊΡƒ принятия Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ модСлью. Π­Ρ‚ΠΎ критичСски Π²Π°ΠΆΠ½ΠΎ для выявлСния скрытых бэкдоров ΠΈ уязвимостСй, Π·Π°Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Π½Π° этапС обучСния.

⚠️ Π’Π½ΠΈΠΌΠ°Π½ΠΈΠ΅: Полная Π·Π°Ρ‰ΠΈΡ‚Π° ΠΎΡ‚ всСх Π²ΠΈΠ΄ΠΎΠ² adversarial Π°Ρ‚Π°ΠΊ матСматичСски Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Π° для слоТных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. БтратСгия Π΄ΠΎΠ»ΠΆΠ½Π° ΡΡ‚Ρ€ΠΎΠΈΡ‚ΡŒΡΡ Π½Π° ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΠΈ стоимости Π°Ρ‚Π°ΠΊΠΈ для Π·Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊΠ°, дСлая Π΅Ρ‘ экономичСски нСцСлСсообразной.

πŸ’‘

Π“Π»Π°Π²Π½Ρ‹ΠΉ Π²Ρ‹Π²ΠΎΠ΄: Π£ΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒ ML-систСм достигаСтся Π½Π΅ ΠΎΠ΄Π½ΠΈΠΌ инструмСнтом, Π° ΠΊΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΠ΅ΠΉ adversarial training, ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³Π° Π°Π½ΠΎΠΌΠ°Π»ΠΈΠΉ ΠΈ рСгулярного Π°ΡƒΠ΄Π΅Ρ‚Π° бСзопасности.

Π’ Π·Π°ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠ΅ стоит ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ ΠΈΠ³Π½ΠΎΡ€ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ рисков, связанных с defense evasion, ΠΌΠΎΠΆΠ΅Ρ‚ привСсти ΠΊ катастрофичСским послСдствиям Π² критичСски Π²Π°ΠΆΠ½Ρ‹Ρ… систСмах, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Π°Π²Ρ‚ΠΎΠ½ΠΎΠΌΠ½Ρ‹ΠΉ транспорт ΠΈΠ»ΠΈ мСдицинская диагностика. Π˜Π½Π²Π΅ΡΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ Π² research бСзопасности ИИ становится ΠΎΠ±ΡΠ·Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ Ρ‚Ρ€Π΅Π±ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ для любого бизнСса, Π²Π½Π΅Π΄Ρ€ΡΡŽΡ‰Π΅Π³ΠΎ машинноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅.

Часто Π·Π°Π΄Π°Π²Π°Π΅ΠΌΡ‹Π΅ вопросы (FAQ)

Π§Ρ‚ΠΎ Ρ‚Π°ΠΊΠΎΠ΅ adversarial example Π² машинном ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠΈ?

Π­Ρ‚ΠΎ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ сконструированный Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ Π΄Π°Π½Π½Ρ‹Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ выглядят для Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠ° ΠΊΠ°ΠΊ ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹Π΅, Π½ΠΎ Π²Ρ‹Π·Ρ‹Π²Π°ΡŽΡ‚ ΠΎΡˆΠΈΠ±ΠΊΡƒ Π² Ρ€Π°Π±ΠΎΡ‚Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ машинного обучСния. ΠžΠ±Ρ‹Ρ‡Π½ΠΎ это достигаСтся Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΠ΅ΠΌ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½ΠΎΠ³ΠΎ ΡˆΡƒΠΌΠ°.

МоТно Π»ΠΈ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ Π·Π°Ρ‰ΠΈΡ‚ΠΈΡ‚ΡŒΡΡ ΠΎΡ‚ Π°Ρ‚Π°ΠΊ Ρ‚ΠΈΠΏΠ° defense evasion?

Полная Π·Π°Ρ‰ΠΈΡ‚Π° Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Π°, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ всСгда ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ Π½ΠΎΠ²Ρ‹Π΅ способы ΠΎΠ±Ρ…ΠΎΠ΄Π°. Однако ΠΌΠΎΠΆΠ½ΠΎ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΠΎΠ²Ρ‹ΡΠΈΡ‚ΡŒ ΠΏΠΎΡ€ΠΎΠ³ Π²Ρ…ΠΎΠ΄Π° для Π°Ρ‚Π°ΠΊΡƒΡŽΡ‰Π΅Π³ΠΎ, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ adversarial training, ансамбли ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ строгий ΠΌΠΎΠ½ΠΈΡ‚ΠΎΡ€ΠΈΠ½Π³ Π²Ρ…ΠΎΠ΄Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ….

Как Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π°Ρ‚Π°ΠΊΠ° poisoning?

Атака poisoning происходит Π½Π° этапС обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ. Π—Π»ΠΎΡƒΠΌΡ‹ΡˆΠ»Π΅Π½Π½ΠΈΠΊ внСдряСт Π² ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰ΡƒΡŽ Π²Ρ‹Π±ΠΎΡ€ΠΊΡƒ врСдоносныС Π΄Π°Π½Π½Ρ‹Π΅, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π·Π°ΡΡ‚Π°Π²Π»ΡΡŽΡ‚ модСль Π²Ρ‹ΡƒΡ‡ΠΈΡ‚ΡŒ Π½Π΅ΠΏΡ€Π°Π²ΠΈΠ»ΡŒΠ½Ρ‹Π΅ зависимости ΠΈΠ»ΠΈ ΡΠΎΠ·Π΄Π°ΡŽΡ‚ скрытыС Ρ‚Ρ€ΠΈΠ³Π³Π΅Ρ€Ρ‹ для Π±ΡƒΠ΄ΡƒΡ‰ΠΈΡ… Π°Ρ‚Π°ΠΊ.

КакиС Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ΡΡ для тСстирования устойчивости ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ?

НаиболСС популярными инструмСнтами ΡΠ²Π»ΡΡŽΡ‚ΡΡ IBM Adversarial Robustness Toolbox (ART), CleverHans ΠΈ Foolbox. Они ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‚ Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ Ρ‚ΠΈΠΏΡ‹ Π°Ρ‚Π°ΠΊ для ΠΏΡ€ΠΎΠ²Π΅Ρ€ΠΊΠΈ защищСнности ΠΌΠΎΠ΄Π΅Π»ΠΈ.