Министерство образования и науки Российской Федерации РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ НЕФТИ И ГАЗА имени И.М. ГУБКИНА Кафедра прикладной математики и компьютерного моделирования Э.В. Калинина И.В. Ретинская В.С. Ретинский СПЕКТРАЛЬНЫЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ В MICROSOFT EXCEL Москва 2014 УДК 519.2 Рецензент: В.Г. Домрачеев, д.т.н., проф., лауреат гос. премии СССР Калинина Э.В., Ретинская И.В., Ретинский В.С. Спектральный анализ временных рядов в MICROSOFT EXCEL. – М.: Издательский центр РГУ нефти и газа имени И.М. Губкина, 2014. – 29 с. В пособии рассматривается один из методов построения модели вре- менного ряда. При этом данные разлагаются на три составляющие: тренд, периодическую компоненту и шум. Для выделения тренда используется регрессионный анализ, а для моделирования периодической составляю- щей – разложение в ряд Фурье. В пособии подробно рассмотрен пример построения модели временного ряда с использованием пакета «Анализ данных» и статистических функций Microsoft Excеl. Авторы выражают благодарность Алене Юрьевне Бугай, выпускнице аспирантуры кафедры, за помощь в подготовке материалов. © Калинина Э.В., Ретинская И.В., Ретинский В.С., 2014 © РГУ нефти и газа имени И.М. Губкина, 2014 2 Введение За последние десятилетия прикладные методы и соответствую- щие им пакеты прикладных программ, связанные с анализом и про- гнозированием временных рядов, развивались очень быстро. Среди них можно упомянуть, например, нейронные сети, метод авторегрес- сии и проинтегрированного скользящего среднего (АРПСС). Такое развитие связано, с одной стороны, с потребностями общества, а с другой, с увеличением быстродействия компьютеров. Часто такое прогнозирование (предсказание) требуется вести в режиме реального времени. Все методы можно условно разделить на три группы. Во- первых, методы, где присутствует математическая модель, позво- ляющая объяснить физическую природу временного ряда. Во-вторых, чисто эмпирические методы, где прогнозирование ряда ведется лишь по критерию точности предсказания без анализа его природы, и на- конец, в-третьих, смешанные методы. Для предсказания в режиме ре- ального времени все чаще используются методы второй группы. В данном пособии рассматривается метод, относящийся к первой груп- пе, который позволяет оценить наличие колебаний во временных ря- дах и дает возможность задуматься над природой этих колебаний. 3 I. ВРЕМЕННОЙ РЯД И ЕГО СОСТАВЛЯЮЩИЕ Как известно [1, 4], временным рядом называют последователь- ность наблюдений, упорядоченных по времени и отстоящих друг от друга на равные промежутки времени. С точки зрения математиче- ской теории, временной ряд является реализацией случайного про- цесса − неслучайной функцией аргумента t (времени) – и представля- ет собой результат экспериментов (опытов). Основной чертой, выделяющей анализ временных рядов среди других видов статистического анализа, является существенность по- рядка, в котором производятся наблюдения. Если во многих задачах наблюдения статистически независимы, то во временных рядах они, как правило, зависимы, и характер этой зависимости может опреде- ляться положением наблюдений в последовательности [1, 4]. Почти в каждой области встречаются явления, которые интересно и важно изучать в их развитии и изменении во времени. Цели изучения временных рядов достаточно разнообразны. Мож- но использовать ряд для предсказания будущего поведения на осно- вании знания прошлого, управлять процессом, порождающим ряд, выяснять механизм, порождающий ряд, или просто описать харак- терные особенности ряда. Типичные временные ряды содержат несколько составляющих [1, 4]: • тренд или систематическое движение; • эффект сезонности (периодическая составляющая); • «случайная» или «нерегулярная» компонента. Для описания временных рядов используются математические модели, в которые включают как одну из составляющих, так и сумму нескольких из них. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая изменяется во времени и характе- 4 ризует долговременные изменения наблюдений «в среднем». Сезон- ная составляющая – это более или менее регулярные периодические колебания в измеряемой последовательности. Случайная составляю- щая (с математическим ожиданием равным нулю и подчиняющаяся некоторому закону распределения) может включать в себя и ошибки наблюдения [1, 4]. Наиболее легкой для обнаружения, выделения и изучения являет- ся сезонная составляющая, а метод ее выделения называют спек- тральным анализом. 5 II. РАЗЛОЖЕНИЕ В РЯД ФУРЬЕ Одна из целей спектрального анализа − распознавание периодиче- ских колебаний различной длины. Для этого временной ряд раскла- дывают по периодическим функциям − набору синусов и косинусов с различными частотами, а затем определяют наиболее существенные и значимые из них [1, 3, 4]. Временной ряд рассматривается как сумма многих периодических компонент. Пусть имеются значения некоторого наблюдаемого признака или характеристики x(t), заданные в дискретные моменты времени t = i·Δ, i i где Δ − интервал между отдельными наблюдениями, а целое число i меняется от 1 до N. Предположим, что общее число наблюдений является четным, т.е. N = 2·n [1, 3, 4]. Значение временного ряда в момент времени t аппроксимируется i моделью: n n x(t ) = x + ∑ α cos(2πf t )+ ∑β sin(2πf t )+ e , (1) i k k i k k i t k=1 k=1 где k – гармоника ряда k =1, n; f = k / (NΔ) − частота k-й гармоники k ряда; e – ошибка наблюдения ({e ,} − последовательность независи- t t мых, нормально распределенных случайных величин с нулевым сред- 2 ним значением и одинаковой дисперсией σ ); {x, α , β , k =1, n} − e k k неизвестные параметры, оценки или числовые значения которых на- ходятся по данным измерений x(t) с помощью метода наименьших i квадратов. В случае нечетного значения N последнее наблюдение обычно от- брасывают. Оценки для коэффициентов x, α , β , полученные по методу наи- k k меньших квадратов, имеют вид: 6 1 N x = ∑ x(t ), i N i=1 2 N α = ∑ x(t )cos(2πf t ), k i k i N i=1 2 N β = ∑ x(t )sin(2πf t ), (2) k i k i N i=1 k =1, n, где x(t ) − значение наблюдаемой характеристики в момент t . i i В ряде случаев модель (1) удобнее представить, выделив в явном виде амплитуды и фазы гармоник: n x(t) = x + ∑ R cos(2πf t −ϕ )+ e , (3) k k k t k=1 где 2 2 R = α +β , k k k ⎛ β ⎞ ϕ = arctg k , (4) ⎜ ⎟ k ⎝ α ⎠ k 1 NΔ f = , T = . k k T k k Величины R , ϕ , T , f являются, соответственно, амплитудой, фа- k k k k зой, периодом и частотой колебания гармоники с номером k. Для оценки периодической составляющей в модели (1) использу- ется также периодограмма. Оценка дисперсии величины x(t), являющаяся мерой интенсивно- i сти флуктуации величин x(t) относительно среднего значения всех i измерений x , может быть представлена в форме разложения на со- ставляющие по отдельным частотам 7 1 N 1 n−1 2 2 2 2 2 S = ∑ (x(t )− x) = ∑ (α +β )+α (5) i k k n N i=1 2 k=1 или 1 S2 = ∑R2 , k =1, n, k 2 k где N = 2·n, т.е. общее число наблюдений – четная величина. При не- четном N = 2·n−1 слагаемое α в выражении (5) исчезает. n Разложение в формуле (5) можно представить в виде графика зависимости средней интенсивности флуктуаций гармоники R2 = k = I( f )=α2 +β2 от частоты f . Такой график называется линейчатым k k k k спектром Фурье или периодограммой [1, 4]. Использование периодограммы позволяет выявить наиболее зна- чительные или доминирующие периодические колебания в динамике временного ряда. После нахождения R , ϕ , T , f (соответственно, амплитуды, фазы, k k k k периода и частоты колебания гармоники с номером k) необходимо проверить статистическую значимость данных величин с помощью критерия Фишера либо с помощью анализа вкладов в дисперсию до- минирующих гармоник. Сравнивая дисперсии периодической компоненты и случайной со- ставляющей временного ряда, можно установить, насколько значимо их различие, что является количественным критерием выделения гармонической компоненты, скрытой шумом. В частности, пороговые значения интенсивности флуктуации можно определить при помощи критерия Фишера I( f )/ ν k 1 > F(α,ν ,ν ), (6) 2 1 2 S / ν 2 где I( f )=α2 +β2 − значение периодограммы (квадрата амплитуды) k k k для частоты f , F (α, ν , ν ) – критическая точка распределения Фише- k 1 2 8 ра, (она находится по статистическим таблицам для F-распределения при заданных значениях уровня значимости α), ν – число степеней 1 свободы, приходящихся на гармонику ряда Фурье, ν = N−1 – число 2 степеней свободы всего ряда, α – выбранный уровень значимости критерия. Из соотношения (5) следует, что при четном числе наблюдений имеются n-1 пар степеней свободы, которые связаны с парами коэф- фициентов (α , β ), для них ν = 2; еще одна степень свободы ν = 1 k k 1 1 связана с коэффициентом α . n Таким образом, из неравенства (6) можно установить пороговые значения интенсивности флуктуации, в частности, для порогового значения амплитуды R получаем: кр 2 σ R = F(α,ν ,ν )⋅ ⋅2⋅ν . (7) кр 1 2 1 ν 2 По критерию Фишера определяются только те доминирующие гармоники ряда, которые статистически значимо превосходят флук- туации, обусловленные шумом. Более удобно при определении значимости флуктуации использо- вать безразмерные величины вкладов доминирующих гармоник в дисперсию ряда, которые вычисляются по формуле: 2 2 2 R α +β ρ2 = k ⋅100%= k k ⋅100% (8) k 2 n−1 2S 2 2 ∑ (α +β ) k k k где ρ2 − вклад доминирующих гармоник в дисперсию ряда в процен- k тах. Основными гармониками принято считать те, у которых n 2 ∑ ρ ≥80%. k k=1 Анализ Фурье позволяет выделять доминирующие гармоники с 9 периодом T , которые вносят основной вклад в дисперсию процесса. k В связи с этим можно переписать модель (3) в виде: m x(t )= x+ ∑ R cos(2πf t −ϕ ), (9) i k k i k k=1 где m – число доминирующих гармоник. На практике при анализе периодических процессов ϕ фазы часто k не принимают во внимание, в этом случае модель (9) может пред- ставляться в следующем виде: m m x(t ) = x + ∑ α cos(2πf t )+ ∑β sin(2πf t ). (10) i k k i k k i k=1 k=1 Таким образом, использование критерия Фишера и анализа вкла- дов в дисперсию доминирующих гармоник позволяет упростить мо- дель за счет использования ограниченного числа гармоник. 10