ebook img

Много цифр: Анализ больших данных при помощи Excel PDF

458 Pages·2016·66.257 MB·Russian
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Много цифр: Анализ больших данных при помощи Excel

УДК3 30.47 ББК6 5.051.03 Ф79 ПереводАч.иС ко колова РедактЛо.Мр а медова ФорманДж. Ф79 Многцои фрА:н алибзо льшидха нныпхр ип омощEи xc/eД жlа нФ орма;нП ер. е ангАп..С ОКОЛОВОМЙ..: А льпиПнааб лише2р0,1 -6.4 61с . - ISBN9 78-5-9614-5032-3 Казалобсыть, е рми.нб ольшдиаен ныпео.н ятиед но ступтеонл ьскпое циалистам. Ноа втоэрт окйн иги доказчытвоаа неатл,и з данныхо рганизоив а"втр ьо ­ МОЖНО панятноочме,н эьф фективин зонма комом ExcПeрlи.че нме в ажно, СТОМ, МНОГИМ скольвкеол ивка шм ассидва нныТхе.х нипкрие,д ложенвнэ ытео кйн игбеу,д упто ­ лезниыв ладелньец6у0 ЛЬШиОнГтОе рнет-маиг аанзаилниат,ки ркууп нтоойр говой компанВиыип .е рестанбеотяет ьбсоял ьшидха ннынха,у читвеисдье твнь и хн уж­ нуюв ами нформациис юм ожетпер оанализирпорвеадтпьо чтвеаншииякх л иентов и предложиимтн ьо выпер одукотпыт,и мизиродвеантеьж нпыоет окии с кладские запасдыр,у гисмлио вампио,в ысиэтфеф ективнроасбтоьт выа шеойр ганизации. Книгбау деитн теремсанрак етолобгиазмн,е с-аналиир туиккоавмо дитреалзя­м ныху ровнекйо,т орывма жнвол адесттьа тистидклояпй р огнозироивп алнаиня и­ рования буддеуящтеейл ьнкоосмтпиа ний. УДК3 30.47 ББК6 5.051.03 Ва правзаа щищеННbIи.l( аl(ачяа стэьт ойI(H UZU нем ожет бытьв оспроизввl(е адl(еОнбЙаblт он иб blllфорОм е иl( al(UМбUы тон иб ьurсор едствавмкил,ю чрааяз мещевн сиеет Иин тер­ нети кво рпоратисвентыяхах т ,a lOКe запивсп ьа мятЭьВ М для частноиглоnи yt5A ичногиос пользобеэв аnниuяс ьменрнаозг.о решенеиляа делaьeцmйo pcпl(рuxа Пво.fЮ npocy организдо-­ации ступ1(а э леl(тронбниобйл иотиезкдеа те.льс0т6ераа щайтесь поа дреmсylуi b@a/pina.ru ltJ /ohWni le&y S oл[sл,е I.л,d iaпаIрлоdliiаs2п,0а 1,4 AIRIi ghRtess ervТehidts.r anslation unpdueblrIi iesehnesde witthh oer igipnuablI i/sohheWnri 1e&y S ons',п е. ltJ Изданниаер усскяозмы кпее,р евоофд,о рмление. 000, ДЛьпинПаа блише2р0.1,6 ISB9N7 8-5-96\4(-р5у0с3.2)- 3 ltJ Фотографиняа о бложкJеa.s oTnr avIi s ISB9N7 8·1-118-(6а6н1г4л6.-)8 CourtoefsJy о hWл. f oreman 6 Много цифр . ". ......" . ...................... " .... ""." ..... "" .. ". . ". . "" .. 61 Начнем с четырех кластеров .......... ... . 62 Евклидово расстояние: измерение рассrояний напрямик ........................................ 65 Расстояния и принадлежность к кластеру для всех! .................................................. . . .. . .. . . . . 6 7 Поиск решений для кластерных центров . .... ............ ..... ... . ..... ..... .................. .. . 70 Смысл полученных результатов ................................................................................ . . .. .. . 71 Рейтинг сделок кластерным методом ..................... .............. ......... .......... ... ....... 75 Силуэт: хороший способ позволить разным значениям k посостязаться .................. . . 82 Как насчет пяти кластеров? ........................ .............................................................. ..... " .............................. "". ............................... 83 Поиск решения для пяти кластеров " ". ......." ". .... " ..... ". ................. " ............ 84 Рейтинг сделок для всех пяти кластеров ........ " ............... "". .... "" .... "" .... 87 Вычисление силуэта кластеризации по пяти средним ..... "". .. " 89 К-медианная кластеризация и асимметрическое измерение расстояний .. 89 Использование k-медианной кластеризации ............................................................. ". ......." . .......................... 90 Переходим к соответствующему измерению расстояний ... А теперь все то же самое, но в Excel ........" . ...." ... ". ... "". ........... " ........................ ". ... 92 ". ............" . ................ ". ..... "" .... "" .. 94 Рейтинг сделок для 5-медианных кластеров ...... 98 Подытожим .................................................................................................................... 3 Наивный байесовский классификатор и неописуемая легкость бытия идиотом . ". ... ". . "." ..... " .... ". ..................." . ....... 1О1 .. ". . ". ...... "". . "". .... 101 Называя продукт Maпdrill, ждите помех вместе с сигналами .. ". ............. ". .. ". .. ". .... 104 Самое быстрое в мире введение в теорию вероятности" .. " .... ". . ". .... ". ... ". ...." "."."""". .........." ." ..... 104 Суммируем условную вероятность ....... ". ......... " ..... " ............ 105 Совместная вероятность, цепное правило и независимость .. " .. """. ........ " .. ". ..... "" ...................... ". ....... 106 Что же с зависимыми событиями?" ...... . 107 Правило Байеса ................................................................................................... ... "". .." ". ... ".". 108 Использование правила Байеса для создания моделирования ..... ". .. ". ... ". ..... "." ... 11О Высококлассные вероятности часто считаются равными"" ......... " ... ". ..." ... "" ....... ". . "" ........ " ..... ". .......... 111 Еще немного деталей классификатора ..... " .. ". ... ". ..... "" ........ " .... "." .. "". ...................... ". ..... 113 Да начнется Ехсеl-вечеринка! ." " .. "." ..... " ... ". . "" ..... " ...." . ......" . ....." " ..... ". ... " ..... 113 Убираем лишнюю пунктуацию ...... . " .... " .... ". .. ". .... "" .. "". ... ". ... ".". . " ............. " .... 114 Разное о пробелах .... " ......•..........." . ". ......... ". ..................................... 118 Подсчет жетонов и вычисление вероятностей .... " .... """ ............ ". ........... ".". ............ " ...... " 121 У нас есть модель! Воспользуемся ею ... ". ............................................................................. 127 Подытожим .................................. 4 Оптимизационное моделирование: этот «свежевыжатый апельсиновый сок• не смешает себя сам ". ........... 129 .. ................ ". ..... 130 Зачем ученым, работающим с данными, нужна оптимизация? " "". ... ". ............................. ". .." . .." ". ... "". ... 131 Начнем с простого компромисса ........... ................ ". ..........." " .. ". ........" . .............. 132 Представим проблему в виде политопа ." Содержание 7 . . ." .. "" .............. " ...... "" ....." 134 Решение путем сдвигания линии уровня функции ... ... . . . . .... . . 135 Симплекс-метод: все по углам ........... ....... ......... ................. ........... ............. .... . .. . . . . .. . . . . 137 Работа в Excel ...... ............ .... ...... ...... ......... ...... . .. .. .... ......................... ........... . ... . .. . ... . . ... .. .... . . 14 7 Монстр в конце главы ..... ....... . .. ... ...... ..... . .. ..... .. .. .. . .. ............ ............ Свежий, из сада - прямо в стакан .. . .. ..... .. .... ... ... . .. 148 с небольшой остановкой на модель смешивания .. . . ..... ... . . . ... . .. ... ... .... ... .. ..... . .. . 149 Вы используете модель для смешивания ... . .. .... . . . ...... ................ .......... .. .. . .... ... ........ .. . . .. . .. .. . . 150 Начнем с характеристик . ... ..... . ... .. . .... . ... ....... ... .. .. ....... ... .. .......... . ...... . ... . . .. .. .. 151 Возвращаемся к консистенции ......... .. ... ... .............. .. ....... .... . ..... ........... Вводим данные в Excel ............................................................................................. 152 . . ...... .. . .. . . 155 Постановка задачи «Поиску решения• ... .. .... . ........ .. ......... . ................. ....... . . ... . ... .. ... . . . . . . . .. 158 Снижаем стандарты ... ...... ... .. .. . .. .. . ..... .... ........ ...... .... .. .......... ...... ....... . .... . .. .... .. .. . . ... .. 161 Удаление дохлых белок: правило минимакс . .... . ..... .. ... . .. .. ... ...... .. . .. .. . . . . 164 «Если. .. то• и ограничение «Большого М• ................ ... ....... ... ............................... Еще больше переменных: добьем до 11 .................................................................. 167 ... . . ... .. 175 Моделируем риски . . . .................. .. .............................................. ................. ..... . ... . .. .. . .... 17 6 Нормальное распределение данных .. ..... . ............ .... ... ............. ......... ......... 184 Подытожим .................................................................................................................. 5 Кластерный анализ, часть 11: сетевые графы и определение сообществ 187 .... . . . . . 188 Что такое сетевой граф? .............................. ............. ..................... .. .............. ....... . ... . .. . . . ... . . . 189 Визуализируем простой граф .... . . .. ..... ..... ......... ... .... . ... ... .............. ............ . . . . . . . 192 Краткое введение в Gephi ...... .... .. ..................... ..... ......................... .................... .. . .. .. .. .. . . 192 Установка Gephi и подготовка файлов ....... ...... ..... ....... .. ........ ........... .......... . . .. . . . . . 194 Визуализация графа ..... ............ ....... ... ..... ...... .... ........................................ ...... .. . . ... ... .. . . 197 Степень вершины .. .. ...... ........ ................... ......................... ............... .......... . "" ....................................................................................... 200 Приятная картинка ....... "." ................. ". .............................................. 200 Прикосновение к данным графа ....... " ............." .".". ......." "". .. " 202 Строим граф из данных об оптовой торговле вином . ". ............................... " ............................. 204 Создание матрицы близости косинусов .. . .. . ... . . . .. . ... . 207 Построение графа N-соседства .......... .... .. ....... . .. ...... ........ .. . ... ..... . .......... 212 Числовое значение ребра: очки и штрафные в модулярности графа ................ . . . ". ................... ". .............................. 212 Кто же такие «очки• и «штрафные•? .......... .. .. " ..................." ". ......." .........." ""." ....." ... " ..." 216 Подготовка к итоговому подсчету ..... .. " .. ". . " . . 219 Переходим к кластеризации!" ...." "" .... ..... " "". " ......." ". .. .. ........................ Деление 1 ................................................................................................................. 219 Деление 2: электролатино! ....................................................................................... 225 и." деление 3: возмездие ..............................................................................." . ....... 227 . . .. ". ." ..... " ......... """. ............................. 228 Кодируем и анализируем группы""" . ... ... .. . . .." ". .. " ............." " ................... """"" .. "" ....." ". . 233 Туда и обратно: история Gephi .. ... .... ...... ..... . . . ." ............... ". .......... " .............................. 238 Подытожим .. . ... . . ... . .. ... ... ............. 8 Много цифр 6 Бабушка контролируемого искусственного интеллекта - регрессия 241 ..... 241 Погоди, ты что - беременна? ................................................................................... 242 Не обольщайтесь! ....................................................................................................... Определение беременных покупателей РитейлМарта 243 с помощью линейной регрессии .............................................................................. 244 Набор отличительных признаков ............................................................................. 245 Сборка обучающих данных ...................................................................................... 247 Создание фиктивных переменных ............................................................................ 250 Мы сделаем свою собственную линейную регрессию! ........................................... 259 Статистика линейной регрессии: R-квадрат, критерии Фишера и Стьюдента ......... 270 Делаем прогнозы на основании новых данных и измеряем результат .................... Предсказание беременных покупателей РитейлМарта 281 с помощью логистической регрессии ..................................................................... 281 Первое, что нам нужно -это функция связи ........................................................... 282 Присоединение логистической функции и реоптимизация ..................................... 286 Создание настоящей логистической регрессии ....................................................... 287 Выбор модели: сравнение работы линейной и логистической регрессий ............... 291 Дополнительная информация .................................................................................. 292 Подытожим .................................................................................................................. 7 Комплексные модели: огромная куча ужасной пиццы 293 ................................. 6 294 Используем данные из главы ................................................................................. 296 Бэггинг: перемешать, обучить, повторить ............................................................... Одноуровневое дерево решений - 296 неудачное название �неумного� определителя ........................................................ А мне не кажется, что это глупо! .............................................................................. 297 300 Нужно еще сильнее! ................................................................................................... 300 Обучим же ее! .......................................................................................................... 31О Оценка бэггинговой модели ..................................................................................... Бустинг: если сразу не получилось, 315 бустингуйте и пробуйте снова .................................................................................. 315 Обучаем модель: каждому признаку -шанс ........................................................... 324 Оценка модели бустинга .......................................................................................... 327 Подытожим .................................................................................................................. 8 Прогнозирование: дышите ровно, выиграть невозможно 329 ........................... 330 Торговля мечами начата ............................................................................................ 331 Знакомство с временной последовательностью данных ..................................... 333 Медленный старт с простым экспоненциальным сглаживанием ........................ 335 Настраиваем прогноз простого экспоненциального сглаживания ........................... Содержание 9 "." .............. "" .. ". ......." ............ "."" ... "" ..... "" .. 341 Возможно, у вас есть тренд ............ 344 Экспоненциальное сглаживание Холта с корректировкой тренда ..................... 346 Настройка холтовского сглаживания с коррекцией тренда в электронной таблице ... 360 Мулыипликативное экспоненциальное сглаживание Холта-Винтерса ............. 362 Установка исходных значений уровня, тренда и сезонности ................................... 367 Приступим к прогнозу .............................................................................................. 372 И наконец. .. оптимизация! ........................................................................................ 373 Пожалуйста, скажите, что это все!!! ......................................................................... 37 4 Создаем интервал прогнозирования вокруг прогноза ............................................. 378 И диаграмма с областями для пущего эффекта ....................................................... 381 Подытожим .................................................................................................................. 9 Определение выбросов: выделяющиеся не значит важные 383 ....................... 384 Выбросы тоже (плохие?) люди! ................................................................................ 384 Захватывающее дело Хадлум против Хадлум ........................................................ 386 Границы Тьюки ......................................................................................................... 386 Применение границ Тьюки в таблице ...................................................................... 388 Ограничения этого нехитрого метода ...................................................................... 390 Ни в чем не ужасен, плох во всем ............................................................................ 391 Подготовка данных к отображению на графе .......................................................... 394 Создаем граф ........................................................................................................... 397 Вычисляем k ближайших соседей ............................................................................ Определение выбросов на графе, метод 1: полустепень захода .............................. 398 Определение выбросов на графе, метод 2: нюансы k-расстояния .......................... 401 Определение выбросов на графе, метод 3: факторы локальных выбросов - 403 ЭТО ТО,Ч ТО надо ........................................................................................................ 409 Подытожим .................................................................................................................. 1 О Переходим от таблиц к программированию 411 ..................................................... R 412 Налаживаем контакт с ............................................................................................ 413 Пошевелим пальцами .............................................................................................. 421 Чтение данных в R .................................................................................................... 423 Настоящая научная работа с данными ................................................................... 423 Сферическое k-среднее винных данных в нескольких линиях ................................. 430 Построение моделей ИИ для данных о беременных ................................................ 439 Прогнозирование в R ............................................................................................... 443 Определение выбросов ............................................................................................ 448 Подытожим .................................................................................................................. Заключение 451 ................................................................................................................................. Благодарности 459 ............................................................................................................................

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.