Зміст:
Визначення - Що означає виявлення зовнішнього вигляду?
Зовнішнє виявлення - це процес виявлення та згодом виключення залишків із заданого набору даних.
Зовнішній вигляд може бути визначений як фрагмент даних або спостереження, що різко відхиляється від заданої норми або середнього набору даних. Зовнішній вигляд може бути спричинений просто випадково, але він також може вказувати на похибку вимірювання або на те, що даний набір даних має розподіл із великим хвостом.
Ось простий сценарій виявлення зовнішніх процесів, процес вимірювання послідовно видає показання між 1 і 10, але в деяких рідкісних випадках ми отримуємо вимірювання більше 20.
Ці рідкісні вимірювання, що перевищують норму, називаються вибухами, оскільки вони «лежать поза» нормальної кривої розподілу.
Техопедія пояснює виявлення Outlier
Насправді не існує стандартизованого та жорсткого математичного методу визначення зовнішньої форми, оскільки він дійсно змінюється залежно від набору чи сукупності даних, тому його визначення та виявлення в кінцевому підсумку стає суб'єктивним. Завдяки безперервній вибірці в даному полі даних можуть бути встановлені характеристики зовнішньої форми, щоб полегшити виявлення.
Існують методи, що базуються на моделях виявлення людей, що переживають люди, і вони припускають, що всі дані взяті з нормального розподілу і будуть ідентифікувати спостереження або точки, які вважаються малоймовірними на основі середнього або стандартного відхилення. Існує кілька методів виявлення зовнішньої форми:
- Тест Грубба для вихованих - Це засновано на припущенні, що дані мають нормальний розподіл і видаляє одне інше за часом, коли тест повторюється до тих пір, поки не знайдеться більше людей, що втрачають роботу.
- Тест Діксона Q - також заснований на нормальності набору даних, цей метод перевіряє наявність поганих даних. Було відмічено, що це слід використовувати в наборі даних економно та ніколи не один раз.
- Критерій Шовента - Це використовується для аналізу того, чи підряд є хибним або все ще знаходиться в межах і вважається частиною набору. Середнє та стандартне відхилення приймаються та обчислюється ймовірність того, що виникне ексклюзив. Результати визначатимуть, чи слід її включати чи ні.
- Критерій Пірса - встановлено межу помилок для серії спостережень, поза якими всі спостереження будуть відкинуті, оскільки вони вже включають таку велику помилку.




