Перелік коротких описів

Машинне навчання

Підрозділи

Машинне навчання
Упередженість машинного навчання
Машинне навчання: поняття

Машинне навчання

Машинне навчання — це підполе штучного інтелекту, яке займається створенням програм, що навчаються на даних. Машинне навчання пов’язане з темою роботи з даними, особливо з їх збором і записом.

У рамах Знаємо інформатику ми розділяємо цю тему таким чином:

основи машинного навчання (основний принцип машинного навчання, відмінність від класичного програмування, використання машинного навчання)
типи завдань, які можна вирішити за допомогою машинного навчання (як-от, класифікація, регресія, кластеризація)
методи вирішення цих завдань (навчання з учителем і без нього, посилене навчання, нейронні мережі та інші моделі, алгоритми навчання)
оцінка вивчених моделей (розрізнення між узагальненням і простим запам’ятовуванням, розпізнавання навчання та перенавчання, вибір та інтерпретація відповідних показників для порівняння моделей)
викривлення (упередження) у машинному навчанні (що це таке, як це розпізнати та що з цим можна зробити)

Упередженість машинного навчання

Перейти до вправ за цією темою »

Спотворення (іноді також упередженість, англ. bias) означає систематичну помилку, яка призводить до несправедливих наслідків для різних груп. Це не обов’язково мають бути групи людей, термін спотворення також використовується для ситуації, коли, наприклад, модель значно частіше передбачає одну категорію (як-от, груші), навіть якщо інші категорії (як-от, яблука) трапляються так само часто.

Спотворення моделі можуть сприяти упередженості (модель, що передбачає академічну успішність у певній галузі з використанням гендерної інформації) та призвести до дискримінації (якщо цю модель використовуватимуть для прийняття рішень про вступ до університету).

Спотворення моделі здебільшого викликано спотвореними даними, оскільки модель дізнається лише те, що вона бачить у даних. Вибіркове спотворення виникає, коли дані не представляють належним чином усі типи випадків. Якщо ми тренуємо розпізнавання взуття лише на чоловічому взутті, модель не розпізнає жіноче взуття. Спотворення відповідей може статися, наприклад, через упередження анотаторів або небажання респондентів розповідати правду. В опитуваннях люди часто коригують свої відповіді про себе відповідно до соціальних очікувань.

Спотворення може бути важко виявити, оскільки, на відміну від перенавчання, воно зазвичай не проявляється в нижчому рівні успіху на тестових даних. У звичайній процедурі дані для тестування та навчання надходять з одного джерела, тому вони містять однакове упередження.

Щоб зменшити ризик упередженості, бажано постійно перевіряти якість даних. Так, ми маємо переконатися, що зібрані дані включають усі типи випадків і що кожна категорія представлена подібною кількістю прикладів, подібної якості та в подібних контекстах. Під час анотування даних бажано, щоб це робили люди з різних груп (як-от, чоловіки та жінки). Також корисно оцінити поведінку моделі для різних підгруп даних (наприклад, для чоловіків і жінок, різних вікових груп, меншин) і постійно стежити за поведінкою моделі навіть після розгортання.