Основи статистичного аналізу даних

Статистика вивчає закономірності, властиві великим сукупностям об’єктів в економіці, соціології, серійному виробництві та інших сферах.
Статистичний аналіз базується на тому, що дослідивши вибірку, ми можемо робити висновок про загальну сукупність об'єктів.

Формувати вибірку можна по-різному, важливо, щоб вона була репрезентативною.


Іноді у вибірці можна виділити групи об'єктів


На етапі аналізу відбувається обчислення та встановлення закономірностей, які притаманні вибірці, і ймовірно - генеральній сукупності досліджуваних об'єктів.


Для вибірки можна обчислювати показники центру та варіації




У програмі Microsoft Excel, яка часто використовується для статистичного аналізу, ці функції виглядають так:


Серед розподілів неперервних випадкових величин центральне місце займає нормальний (закон Гауса). Він часто застосовується в задачах практики, проявляється в тих випадках, коли випадкова величина Х є результатом дії великого числа факторів, кожний з яких окремо на величину Х впливає мало і не можна виділити, який більше, а який менше.

При нормальному розподілі середня арифметична, мода і медіана будуть рівними між собою.


Нормальному розподілу, за оптимальних обставин, відповідають результати ЗНО:



Проте при роботі зі статистичними даними варто пам'ятати про те, що узагальнені значення можуть не повністю інформувати про особливості вибірки. Квартет Анскомбе демонструє, що при однакових узагальнених показниках, розподіл об'єктів аналізу вказує на дуже відмінні початкові дані.



Недаремно про статистику часом кажуть наступне:


Якою оманливою може бути статистика - Марк Ліддел


https://www.tylervigen.com/spurious-correlations


Відомим є також упередження виживання. Під час Другої світової війни дослідники Центру військово-морського аналізу провели дослідження пошкоджень літаків, які повернулись з завдань, та порекомендували додати броні у місця, пошкодження яких було найчастіше і найбільше. Проте, Абрахам Вальд зазначив, що дослідження врахувало лише літаки, які повернулися з завдання — збиті бомбардувальники не були присутні для оцінки їх пошкоджень. Таким чином, дірки у літаках, що повернулися, були ділянками, попадання в які насправді дозволяє бомбардувальнику повернутися на базу. Натомість він запропонував ВМС додати броні на ділянки, які були неушкоджені на вцілілих літаках, оскільки при попаданні у ці ділянки, літак буде збитий.


Той факт, що дані демонструють зв'язок, ще не означає, що події є залежними:


У якому з пологових ймовірніший епізодичний "перекос" даних: на великих числах, чи малих?


Особливо уважними слід бути, коли статистичні дані повідомляють засоби масової інформації. Відомі випадки маніпуляцій громадською думкою та фінансовими стратегіями громадян та цілих держав:


Як вважаєте, зміна місця проживання допоможе уникати аварій? Якби ми ВСІ переїхали, аварій стало би менше?


І ще одна стаття про небезпеку середніх показників: передмова до книги Долой среднее! Новый манифест индивидуальности https://kniga.biz.ua/book/psychology/115/7135/



Завдання.

Проаналізуйте результати ЗНО із тих предметів, які збираєтесь здавати. Чи є різниця в показниках? Що це означає для вас в процесі підготовки?

Статистичні дані ЗНО https://zno.testportal.com.ua/stat/2018


Звіт про ЗНО http://testportal.gov.ua//wp-content/uploads/2018/08/ZVIT-ZNO_2018-Tom_2.pdf

Остання зміна: неділя 4 жовтня 2020 9:43