ebook img

Просто Big Data. PDF

150 Pages·2019·7.378 MB·Russian
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Просто Big Data.

ПРОСТО СЕРИЯ •• ПРОСТО J •• ПРОСТО Автор идеи НАУЧНО-ПОПУЛЯРНОЕ ИЗДАТЕЛЬСТВО и научный редактор серии «с т р о ю » if СЕРГЕЙ ДЕМЕНОК Санкт-Петербург.2019 УДК 004 ББК 32.97 П82 П82 Просто Big Data. — СПб.: Страта, 2019. — 148 с. — (серия «Просто») ISBN 978-5-907127-29-6 Большие данные — ключевой элемент современного информационного пространства. Практически все, что дела­ ет отдельный человек, группы людей, человечество в целом, компании из разных сфер бизнеса, правительства, происходит в рамках глобального информационного поля. Наша работа, наш досуг, шопинг, путешествия — всё тем или иным способом связано с большими данными. Мы полу­ чаем и отправляем письма по электронной почте, мы звоним по телефону и звонят нам, мы сёрфим в Интернете — и таким образом получаем и отправляем биты информации и находим­ ся внутри системы больших данных. Книга рассказывает о практическом применении техноло­ гии в торговле и банковском деле, медицине и метеорологии, о том, как большие данные помогают обеспечивать безопас­ ность, предсказывать погоду и заставляют нас делать покупки. Очень скоро большие данные будут править миром. Со­ временному человеку не уйти от больших данных. Это часть нашей жизни. Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и ка­ кими бы то ни было средствами, будь то электронные или механи­ ческие, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разре­ шения владельцев. АН rights reserved. No parts of this publication can be reproduced, sold or transmitted by any means without permission of the publisher. УДК 004 ББК 32.97 © Жукова M. В., 2019 ISBN 978-5-907127-29-6 © ООО «Страта», 2019 Зта книга посвящена большим данным (Big Data) и инфор­ мационной революции. В наши дни мы постоянно слышим эти термины. В чем сила и привлекательность больших данных? В сборе огромного количества информации и ее анализе таким образом, как люди никогда не смогли бы сделать без помощи компьютеров. Большие данные — это структурированные и неструкту­ рированные разнообразные данные, имеющие огромный объ­ ем, которые обрабатываются программными инструментами, появившимися в 2000-х годах. Это социально-экономический феномен, связанный с появлением технологических возмож­ ностей для анализа огромных массивов данных, включая миро­ вые данные, и вытекающих из этого трансформационных по­ следствий. В настоящее время термин включает не только сами данные, но и технологии их обработки и использования, мето­ ды поиска необходимой информации в больших массивах. Со­ временные технологии позволяют сделать то, что еще недавно казалось невозможным и даже сегодня иногда так кажется. Большие данные открывают человечеству новый мир. С не­ которыми современными компьютерами можно даже разгова­ ривать. Однозначно можно утверждать, что применение боль­ ших данных очень быстро растет и множится и имеет огромный потенциал. Станет ли наша жизнь от этого лучше или хуже? Большой вопрос. Просто Big Data ГЛАВА 1. ЧТО ТАКОЕ ДАННЫЕ И БОЛЬШИЕ ДАННЫЕ? Просто данные Слово «данные» происходит от латинского datum, кото­ рое означает «то, что дано». Данные — это сведения, показа­ тели, характеризующие кого-либо или что-либо как основа ка­ ких-то выводов и решений. Это факты и обстоятельства для суждений о ком-либо, чем-либо, оценках кого-то или че­ го-то. Это свойства, способности, качества, необходимые для какой-либо деятельности. В современном английском языке обычно используется множественное число слова «данные» — data, но ученые спо­ рят, множественное или единственное число глагола исполь­ зовать с этим словом. Специалисты из Оксфордского универ­ ситета и составители Оксфордского словаря современного английского языка пришли к выводу, что в настоящее время следует использовать единственное число, потому что имеется в виду массив данных. Обычно мы употребляем слово «данные», если говорим о числах и измерениях, хотя это может быть что угодно, записан­ ное, зафиксированное и используемое в дальнейшем. Например, слова в книге, которую вы держите в руках, — это данные. А вообще данные появились где-то 6 000 лет назад вместе с появлением сельскохозяйственных общин — это концепция данных в современном понимании. Люди, занятые сельским хозяйством, фиксировали, когда пахать землю, когда сеять те или иные культуры, когда собирать урожай, сколько семян нуж­ но для засевания той или иной площади. Например, геометрия Просто Big Data использовали десятичную систему но примерно такой же про­ цент составляют и племена, которые использовали пятеричную (основанную на числе 5) и даже пятерично-десятичную систе­ мы. Оставшаяся треть распределяется между доминирующей бинарной, или двоичной системой (основанной на числе 2; ее используют свыше 20% племен), двадцатичной системой (осно­ ванной на числе 20; ее используют 10% племен) и тридцатичной системой (основанной на числе 30; ее использует 1 % племен). Появился счет, появилась письменность — и данные стали хребтом цивилизации, потом они превратились в инструмент, который помогал открывать окно в будущее. Правда, эти по­ пытки далеко не всегда были успешными из-за ограниченного количества доступных данных и ограниченной способности людей к их анализу. В Египте использовался папирус, в Месопотамии — глиня­ ные таблички. Ряд папирусов и табличек с данными дошли до на­ ших дней. Например, папирус Ринда (или Ахмеса). Длина этого папируса составляет 6 метров. Он интересен нам благодаря свое­ му математическому содержанию: он включает 87 разнообразных задач вместе с решениями. Папирус датируется временем между 2000 и 1800 годами до н. э., хотя Ахмес объясняет, что представ­ ляет данные, которым свыше 200 лет. Автор утверждает, что со­ брал их вместе для обучения будущих писарей. Этот папирус мо­ жет рассматриваться как примитивный «учебник» для обучения математике. В настоящее время он хранится в Британском музее (с 1858 года), но изначально входил в коллекцию шотландского египтолога Генри Ринда, отсюда название. Глиняным табличкам из Месопотамии по крайней мере 4 000 лет. Они позволяли хранить и удобно использовать дан­ ные, а не держать их в голове или нацарапанными на стене пеще­ ры. Да и папирус было менее удобно носить с собой. И папирус менее надежен, чем глиняная табличка. Это первые портатив­ ные хранилища данных. Первые образцы письменности в этой области имели фор­ му пиктограмм (графические изображения описываемого предмета), затем они преобразовались в клинопись. Изменение было результатом влияния технологии: новая система письма сложилась благодаря используемым материалам. Клинопись наносилась на влажные глиняные таблички. Для начала насечки Глава 1. Что такое данные и большие данные? делались с использованием заостренного тростника, а в даль­ нейшем деревянной палочки для письма, один конец которой заострен клином (слово «клинопись» произошло от латин­ ского слова cuneus, что означает «клин»). Многие шумерские таблички сохранились до сегодняшнего дня в хорошем состо­ янии. Фактически в настоящее время в музеях по всему миру хранится 400 000 глиняных табличек из Месопотамии. Текст примерно на 400 из них относится к математике, старейшие — это таблички из исчезнувшего города Урук, располагавшегося на берегах Евфрата, примерно в 225 километрах от современ­ ного Багдада. Урук считается колыбелью вычислений и счета. Некоторые ученые считают, что современное название Ирак происходит от шумерского Урук. Для работы с данными в древности использовались палоч­ ки, камни, бусины — все, что помогало считать. Также нельзя не упомянуть и первый процессор — абак. Это счетная доска, которая применялась для арифметических вычислений начи­ ная примерно с V века до н. э. в Древнем Риме, Древней Гре­ ции, Древнем Китае и ряде других стран. Доска была разделена на полосы, считали с помощью камней или фишек. Абак играл исключительно важную роль как инструмент для вычислений. С развитием цивилизации развивались и технологии, помо­ гающие работать с данными для получения информации и, соот­ ветственно, знаний. Цепочка «данные — информация — зна­ ния» существовала всегда, только ее составляющие усложнялись. Многие проблемы не меняются столетиями, но меняются спосо­ бы передачи информации. Соответственно меняется скорость донесения ее до получателей. В наши дни она возросла в сотни раз по сравнению с предыдущими веками. Если в Интернет вбра­ сывается какой-то тезис, то он очень быстро обрастает коммен­ тариями и часто подталкивает к действию. Появление больших данных Не было бы просто данных — не появились бы боль­ шие данные. Данные — это основа понимания. Иногда цепочка «данные — информация — знание» представ­ ляют в виде пирамиды, где данные составляют основание, Просто Big Data а знание — вершину. Информация строится на основании данных. Мы собираем группы каким-то образом связанных данных и так получаем представление о мире или важную ин­ формацию об окружающем нас пространстве. Как уже ска­ зано, слова в этой книге — данные. Информация — это сло­ ва, соединенные в предложения, предложения, разделенные на абзацы, а абзацы на главы. И из информации получились знания. Знания — это интерпретация информации для ее ис­ пользования: вы читаете книгу, обрабатываете информацию, и у вас формируется мнение, появляются собственные идеи, вы предпринимаете какие-то действия. Данные могут быть и набором цифр, они в свою очередь могут быть представлены различным образом, например, в та­ блице. Если вы охотник, то вы, например, знаете или ищете ин­ формацию о том, когда в ближайшем к вам лесу бывает больше всего уток. Существуют специальные издания и сайты, где пу­ бликуется количество рыбы в той или иной местности по ме­ сяцам. Используя эту информацию, вы принимаете решение 0 том, когда пойти охотиться на уток или порыбачить. Хотя может показаться, что большие числа встречаются только в современном мире, а в текстах и хрониках, которые оставила нам история, можно увидеть только маленькие числа, это не так. В Оксфордском университете хранится артефакт, возраст которого составляет около 5 000 лет. В нем рассказыва­ ется о победе фараона Нармера над ливанцами к западу от дель­ ты Нила. Описывается, как Египет взял в плен 120 000 чело­ век, захватил 400 000 быков и 1 422 000 козлов. Сотни тысяч и миллионы также упоминаются в египетской Книге мертвых. Для того периода это очень большие данные. Сложности с большими данными возникли в связи с про­ ведением переписи населения. Первая перепись населения СИ1А была проведена в 1790 году. Тогда население Соединен­ ных Штатов составило чуть менее 4 миллионов человек — 3 929 326 человек, включая рабов. Во время последней пе­ реписи, которая проводилась в 2010 году, население страны составляло уже 308745538 человек. В соответствии со статьей 1 Конституции США перепись населения должна проводить­ ся не реже чем раз в десять лет. Она проводится в годы, закан­ чивающиеся на «0». С 1790-го по 1840 год она проводилась Глава 1. Что такое данные и большие данные? шерифами, а в 1840 году появился первый центральный офис Бюро по переписи населения. И каждый раз людям, занимавшимся переписью населения, казалось, что поставленная перед ними задача обречена на про­ вал. И все — из-за количества данных. Их количество посто­ янно росло, ну^кно было обрабатывать и хранить все больше и больше данных, а доступных и удобных инструментов не хва­ тало. В первые годы все, конечно, делалось вручную. Люди сами чертили таблицы, вносили туда данные, считали без помощи вы­ числительных машин, пересчитывали по несколько раз, чтобы избежать ошибок. Иногда данные одной переписи не успевали полностью проанализировать до начала следующей! А ведь пе­ риод между ними составлял десять лет! И следующая перепись приводила ответственных за нее чиновников в еще больший ужас, потому что население росло с каждым годом, и данных во время каждой следующей переписи населения получалось больше, чем во время предыдущей. Проблема была решена с помощью механизации. В 1890 году при переписи впервые использовали электриче­ скую табулирующую машину Германа Холлерита (1860-1929) для обработки данных. Это американский инженер и изобрета­ тель, сын немецких эмигрантов. Он учился и защитил диссер­ тацию, посвященную электрической табулирующей системе, которую взяло на вооружение правительство для работы Бюро по переписи населения. Холлерит вошел в историю как созда­ тель этой системы, она носит его имя (электрическая табулиру­ ющая система Холлерита). Благодаря ему данные переписи на­ селения удалось обработать всего за год, что было невероятным для того времени, когда результаты предыдущей переписи едва успевали проанализировать к началу следующей. Известна даже дата изобретения им табулятора — 29 февраля 1888 года. Табулятор — это электромеханическая машина, пред­ назначенная для автоматической обработки (суммирования и категоризации) числовой и буквенной информации, записан­ ной на перфокартах. Результаты выдаются на бумажную ленту или специальные карты. И до появления электронно-вычисли­ тельных машин табуляторы использовались по всему миру. Та­ буляторы достаточно эффективно складывали и вычитали. С ум­ ножением и делением было сложнее: требовалось многократное

See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.