| машинне навчання |
навчальні програми на основі даних |
| модель |
відображення входів і виходів (вирішення проблеми машинного навчання) |
| набір даних (dataset) |
дані для навчання моделі |
| приклад (example) |
один повний вхід моделі (рядок набору даних) |
| атрибут (feature) |
інформація про приклади, які використовує модель (стовпець набору даних) |
| марка (label) |
правильний висновок для наведеного прикладу |
| анотація даних |
присвоєння правильних висновків (марок) |
| марковані дані |
дані з бажаним результатом (маркою) |
| предикція |
прогноз, оцінка (вихід моделі) |
| висновок |
складання оцінок за допомогою навченої моделі |
| контрольоване навчання (supervised learning) |
підхід машинного навчання з використанням маркованих даних |
| неконтрольоване навчання (unsupervised learning) |
підхід машинного навчання з використанням немаркованих даних |
| напівконтрольоване навчання (semi-supervised learning) |
підхід машинного навчання з використанням як маркованих, так і немаркованих даних |
| поглиблене навчання, навчання зі зворотнім зв’язком (reinforcement learning) |
навчання через взаємодію з навколишнім середовищем, включаючи зворотній зв’язок щодо вжитих дій |
| класифікація |
завдання визначити, чи належить приклад до однієї з кількох попередньо визначених категорій (як-от, жанр книги) |
| регресія |
завдання на визначення числового значення для заданого прикладу (як-от, оцінка книги) |
| сортування (ranking) |
завдання організації прикладів (як-от, рекомендації книг) |
| виявлення аномалії |
завдання виявлення прикладів, які значно відрізняються від решти даних |
| кластеризація (clustering) |
завдання поділу прикладів на групи (кластери) зі схожими властивостями |
| генеративний штучний інтелект (generative AI) |
моделі, що генерують складні результати, такі як відповіді чи зображення |
| лінійна модель |
модель, що визначає результат на основі зваженої суми атрибутів |
| дерево рішень (decision tree) |
модель, що визначає результат на основі послідовності умов |
| випадковий ліс (random forest) |
модель, що складається з багатьох дерев рішень |
| нейронна сіть |
модель, дещо натхненна структурою мозку, що складається з багатьох взаємопов’язаних «нейронів», які виконують просту функцію, зазвичай організовану в шари |
| глибоке навчання (deep learning) |
вивчення нейронних мереж з багатьма шарами |
| велика мовна модель (Large Language Model, LLM) |
великомасштабна нейронна мережа, що передбачає ймовірність наступного слова (як-от, GPT) |
| трансформатор (transformer) |
тип нейронної мережі, що забезпечує ефективне навчання на великих даних (T у GPT означає трансформатор) |
| параметри, ваги |
значення моделей, які можна змінювати у процесі навчання |
| градієнтний спуск (gradient descent) |
алгоритм навчання, який багаторазово змінює параметри моделі в напрямі найбільшої зміни (градієнта) функції помилки |
| стохастичний градієнтний спуск (SGD) |
ефективний варіант градієнтного спуску використовує елемент випадковості |
| навчальні дані |
дані, які використовуються для навчання моделі |
| тестувальні дані |
дані, які використовуються для оцінки моделі |
| генералізація |
здатність передбачати правильні результати навіть для нових даних (тобто узагальнювати) |
| меморизація |
лише запам’ятовування правильних вихідних даних навчання |
| недонавчання (underfitting) |
модель має високий рівень помилок, оскільки вона занадто проста для поставленого завдання |
| перенавчання (overfitting) |
точне запам’ятовування навчальних даних за рахунок здатності до узагальнення |
| регулярізація |
методи запобігання перенавчанню, наприклад, штрафування за складність моделі |
| упередженість, (bias) |
систематична помилка, що призводить до несправедливих наслідків |
| вибрана упередженість (selection bias) |
тип упередженості, коли дані не представляють належним чином усі типи випадків |
| основна модель (baseline) |
просте рішення задачі використовується для порівняння з більш складними методами |
| метрика |
значення, що виражає якість моделі |
| середньоквадратична похибка (mean squared error) |
метрика для задач регресії, середній квадрат відхилення між прогнозованим і фактичним значенням |
| правильність (accuracy) |
метрика класифікаційних завдань, частка правильних відповідей |
| точність (precision) |
метрика для класифікаційних завдань, скільки з усіх позначених прикладів є позитивними |
| покриття (recall) |
метрика для класифікаційних завдань, скільки всіх позитивних прикладів виявила модель |
| матриця невідповідностей (confusion matrix) |
таблиця, яка показує, скільки яких категорій було класифіковано і яким чином |
| тензорний блок обробки, TPU (Tensor Processing Unit) |
процесори, що спеціалізуються на машинному навчанні |