машинне навчання |
навчальні програми на основі даних |
модель |
відображення входів і виходів (вирішення проблеми машинного навчання) |
набір даних (dataset) |
дані для навчання моделі |
приклад (example) |
один повний вхід моделі (рядок набору даних) |
атрибут (feature) |
інформація про приклади, які використовує модель (стовпець набору даних) |
марка (label) |
правильний висновок для наведеного прикладу |
анотація даних |
присвоєння правильних висновків (марок) |
марковані дані |
дані з бажаним результатом (маркою) |
предикція |
прогноз, оцінка (вихід моделі) |
висновок |
складання оцінок за допомогою навченої моделі |
контрольоване навчання (supervised learning) |
підхід машинного навчання з використанням маркованих даних |
неконтрольоване навчання (unsupervised learning) |
підхід машинного навчання з використанням немаркованих даних |
напівконтрольоване навчання (semi-supervised learning) |
підхід машинного навчання з використанням як маркованих, так і немаркованих даних |
поглиблене навчання, навчання зі зворотнім зв’язком (reinforcement learning) |
навчання через взаємодію з навколишнім середовищем, включаючи зворотній зв’язок щодо вжитих дій |
класифікація |
завдання визначити, чи належить приклад до однієї з кількох попередньо визначених категорій (як-от, жанр книги) |
регресія |
завдання на визначення числового значення для заданого прикладу (як-от, оцінка книги) |
сортування (ranking) |
завдання організації прикладів (як-от, рекомендації книг) |
виявлення аномалії |
завдання виявлення прикладів, які значно відрізняються від решти даних |
кластеризація (clustering) |
завдання поділу прикладів на групи (кластери) зі схожими властивостями |
генеративний штучний інтелект (generative AI) |
моделі, що генерують складні результати, такі як відповіді чи зображення |
лінійна модель |
модель, що визначає результат на основі зваженої суми атрибутів |
дерево рішень (decision tree) |
модель, що визначає результат на основі послідовності умов |
випадковий ліс (random forest) |
модель, що складається з багатьох дерев рішень |
нейронна сіть |
модель, дещо натхненна структурою мозку, що складається з багатьох взаємопов’язаних «нейронів», які виконують просту функцію, зазвичай організовану в шари |
глибоке навчання (deep learning) |
вивчення нейронних мереж з багатьма шарами |
велика мовна модель (Large Language Model, LLM) |
великомасштабна нейронна мережа, що передбачає ймовірність наступного слова (як-от, GPT) |
трансформатор (transformer) |
тип нейронної мережі, що забезпечує ефективне навчання на великих даних (T у GPT означає трансформатор) |
параметри, ваги |
значення моделей, які можна змінювати у процесі навчання |
градієнтний спуск (gradient descent) |
алгоритм навчання, який багаторазово змінює параметри моделі в напрямі найбільшої зміни (градієнта) функції помилки |
стохастичний градієнтний спуск (SGD) |
ефективний варіант градієнтного спуску використовує елемент випадковості |
навчальні дані |
дані, які використовуються для навчання моделі |
тестувальні дані |
дані, які використовуються для оцінки моделі |
генералізація |
здатність передбачати правильні результати навіть для нових даних (тобто узагальнювати) |
меморизація |
лише запам’ятовування правильних вихідних даних навчання |
недонавчання (underfitting) |
модель має високий рівень помилок, оскільки вона занадто проста для поставленого завдання |
перенавчання (overfitting) |
точне запам’ятовування навчальних даних за рахунок здатності до узагальнення |
регулярізація |
методи запобігання перенавчанню, наприклад, штрафування за складність моделі |
упередженість, (bias) |
систематична помилка, що призводить до несправедливих наслідків |
вибрана упередженість (selection bias) |
тип упередженості, коли дані не представляють належним чином усі типи випадків |
основна модель (baseline) |
просте рішення задачі використовується для порівняння з більш складними методами |
метрика |
значення, що виражає якість моделі |
середньоквадратична похибка (mean squared error) |
метрика для задач регресії, середній квадрат відхилення між прогнозованим і фактичним значенням |
правильність (accuracy) |
метрика класифікаційних завдань, частка правильних відповідей |
точність (precision) |
метрика для класифікаційних завдань, скільки з усіх позначених прикладів є позитивними |
покриття (recall) |
метрика для класифікаційних завдань, скільки всіх позитивних прикладів виявила модель |
матриця невідповідностей (confusion matrix) |
таблиця, яка показує, скільки яких категорій було класифіковано і яким чином |
тензорний блок обробки, TPU (Tensor Processing Unit) |
процесори, що спеціалізуються на машинному навчанні |