х1, y1 - ми маємо внаслідок спостережень
в0, в1 - це коефіцієнти, які ми повинні визначити
n - кількість спостережень, вони нам завжди відомі.
Якщо центрувати наші дані, необхідно замість х1 записувати:
(2.6)
По діагоналі системи будемо мати дисперсію відпов. змінною, а недіагональні елементи нормальної системи будуть коваріаціями відповідних пар елементів.
Перевірку якості отриманого рівняння ми починаємо з побудови таблиці дисперсійного аналізу регресійного рівняння.
Таблиця 2.6
Дисперсійний аналіз регресійного рівняння
Джерело варіації
SS
df
MSS
Регресія
9,67E+12
5
1,93E+12
Залишки
4,36E+10
3
1,45E+10
Загальне
9,71E+12
8
ŷ - обчислене значення
y - фактичне значення
- середнє значення (фактичне)
n - кількість спостережень
p - кількість коефіцієнтів, які ми визначаємо
Якщо величина F буде більше Fтабл, то ми вважаємо, що наше рівняння значуще.
Вираз поділимо зліва та справа на величину SST, тоді отримаємо
(2.7)
Величина отримала спеціальне позначення:
R2 спеціальну назву - коефіцієнт детермінації
= R2 (2.8)
R2=1- (2.9)
Фізичний зміст цієї величини: вона показує, яку долю загальної дисперсії пояснює наше рівняння регресії, в даному випадку R2 = 0,995515.
Коефіцієнт детермінації використ.для порівняння якості конкуруючих регресійних моделей, кожна з якої значуща.
Те рівняння буде краще, для якого коефіцієнт детермінації буде більше.
Для того, щоб порівняти якість конкуруючих регресійних моделей, треба, щоб у них співпали кількість спостережень та змінних.
Можна довести, що величина
SST = SSR + SSE
8 = 5 + 3
У загальному випадку для порівняння моделей використовують скоригований коефіцієнт детермінації:
(2.10)
Для перевірки стат-го зв’язку між вибраними змінними та величиною y використовують коефіцієнт множинної кореляції: R- позначення цього коефіцієнта.
Можна показати, що коефіцієнт детермінації рівняється квадрату коефіцієнта кореляції.
Властивості коефіцієнта множинної кореляції R та парного коефіцієнта кореляції r :
Таблиця 2.7
Властивості коефіцієнта множинної кореляції R та парного коефіцієнта кореляції r
rxy
0<R<1
0,995515
0,995515=0,995515
Чим більше по модулю величина R і r, тим зв’язок тісніший між величиною y і xp.
Так як r<0, то збільшенню однієї з величин відповідає зменшення іншої.
Коефіцієнт множинної кореляції = 0,99775.
Для перевірки значущості отриманих коефіцієнтів (якщо в цілому за критерієм f рівняння було значущим) використовуємо критерій ст’юдента.
Для перевірки значущості кожного коефіцієнта регресії обчислюють величину
(2.11)
bi - обчислене значення коефіцієнта
- це його середньоквадратичне відхилення.
Чим величина більше, тим більш значущим є отриманий коефіцієнт.
Величину порівнюють з величиною tтабл .
Якщо > tтабл , то вважаємо, що рівняння значуще.
У свою чергу tтабл розподілено згідно з розподілом ст’юдента з n-p степенями свободи на рівні значущості α.
α - імовірність помилки.
Якщо α=0,01, то ми можемо помилитись 1 раз із 100.
Якщо прийняти α=0,05, то , якщо p-value<0,05, то коефіцієнти значущі.
Визначення коефіцієнтів регресії у стандартизованій формі.
Для того, щоб отримати рівняння у стандартизованих змінних, перетворюють і величину y і змінні х таким чином:
(2.12)
~ - символ стандартизації
Кожну змінну х перетворюємо аналогічно:
(2.13)
Отже лінійна багатовимірна модель матиме вигляд:
Y = 149794 + 7,862769 + 0,208411 + 0,96028 + 0,05365 + 0,1896
Розв’язавши відносно величини в всю систему , отримаємо коефіцієнти регресії у стандартизованій формі.
Таблиця 2.8
Вихідні дані по задачі
y
x1
x2
x3
x4
x5
3993939
0,81813
431,171
0,00108
0,5161
0,01366
685033
7,28167
33,4405
0,04341
5,19318
0,21281
983166
8,24058
34,8751
0,04557
6,069
0,68172
409041
10,129
39,8519
0,0353
6,22221
8,01015
638359
10,1256
37,868
0,03092
8,51137
10,0877
895032
10,6945
41,2606
0,0316
8,86321
8,91254
517764
10,5075
33,5195
0,04508
1,87029
116,022
814398
10,1045
31,9338
0,0458
3,22496
1,83727
1159824
10,5347
34,15
2,14654
4,86342
2,18197
Таблиця 2.9
Вивід результатів
Множинний R
0,997755
R-квадрат
Нормований R-квадрат
0,988039
Стандартна помилка
120507
Спостереження
9
Таблиця 2.10
Дисперсійний аналіз
F
Значимість F
133,1719
0,001016
Залишок
Всього
Таблиця 2.11
Коефіцієнти
t-статистика
P-Значення
Нижні 95%
Верхні 95,0%
Y пересечение
149794
184885
0,810201
0,477128
-438592
738180,5
Змінна X 1
7,862769
3,538394
2,22213
0,112819
-3,39798
19,12352
Змінна X 2
0,208411
0,009435
22,08948
0,000203
0,178385
0,238437
Змінна X 3
0,96028
8,672742
0,11072
0,918828
-28,5608
26,64026
Змінна X 4
0,05365
3,291805
-0,0163
0,98802
-10,5296
10,42235
Змінна X 5
0,18963
0,269576
-0,70344
0,532461
-1,04754
0,66828
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20