Наш коллега объясняет ребенку что такое большие данные
Что такое big data. Объясняем простыми словами
Big data (англ. «большие данные») — массивы данных большого объёма и значительного многообразия, анализируемые с помощью специальных компьютерных технологий.
Источники больших данных — интернет вещей, соцсети, блоги, СМИ, показания приборов и датчиков (например, данные метеостанций), статистика, архивы, базы данных. Хранятся они в data lake — «озёрах данных» — в облачных хранилищах.
Анализ больших данных уже применяется во многих сферах — для обеспечения безопасности, диагностики и профилактики заболеваний, предсказания аварий и катастроф. В бизнесе и маркетинге на основании больших данных предсказывают поведение клиентов, оптимизируют расходы и процесс производства, оценивают платежеспособность, прогнозируют увольнение сотрудников.
Пример употребления на «Секрете»
«Вот приходите вы на приём к психиатру, он вам ставит диагноз на основе собственного субъективного мнения, а не анализа больших данных. Это должно измениться. Сфера образования, кстати, тоже меня удивляет. Мы пытаемся всех заставить учиться одним и тем же способом. Мне кажется, что большие данные могли бы повысить эффективность в сфере образования: например, если у ребёнка какие-то особые способности к обучению, мы могли бы оптимизировать и персонализировать обучение для него».
(Психолог Йорган Каллебаут — о применении больших данных.)
Нюансы
В основе описания больших данных лежит три основных характеристики (VVV):
История
Термин «большие данные» стал широко использоваться в 1990-е. Проблемами растущего объёма информации, однако, стали задаваться гораздо раньше. Так, в результате переписи населения в США в 1880 году получился такой объём данных, что для анализа понадобилось бы 8 лет. Тогда инженер Герман Холлерит создал табулятор, автоматически обрабатывавший числовую и буквенную информацию и выдававший результат на бумажную ленту.
Критика
Критика больших данных в основном связана с тем, что при их анализе используются непрозрачные алгоритмы, которые нельзя оценить и проверить — неясно, какие данные были учтены, почему и как сделан вывод. Кроме того, сбор, хранение и обработка больших объёмов разнообразной информации создаёт много возможностей для утечек и нарушения конфиденциальности.
ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ
ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ
Лапшева Елена Евгеньевна
кандидат педагогических наук, доцент
ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского »
Россия, г.Саратов
e-mail: lapsheva@yandex.ru
Огнева Марина Валентиновна
кандидат физико-математических наук
ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского »
Россия, г.Саратов
e-mail: ognevamv@gmail.com
В современном информационном обществе основной ценностью и предметом потребления становится информация. С появлением и развитием цифровых технологий, компьютерных сетей, онлайн-сервисов и социальных сетей объем данных стал возрастать экспоненциально. Ежедневно происходит обмен электронными письмами, фотографиями, видео, сообщениями и обсуждениями, публикация различных данных, совершаются онлайн-покупки. Естественно возникает потребность извлекать из этих данных полезную информацию, обрабатывать и анализировать ее.
Наука о данных (data science) – это совокупность методов и технологий, которые позволяют извлекать знания из данных, для работы в этой области необходим междисциплинарный набор знаний и навыков, необходимых для извлечения знаний (data mining) [1, 5].
Порог входа в data science высокий и различных методов для обработки данных, основанных в том числе, на знаниях высшей математики, много, поэтому чем раньше начнется формирование базовых навыков, необходимых для работы в этой области, тем более успешным будет дальнейшее обучение и профессиональная карьера.
Основы программирования на языке, который наиболее приспособлен для анализа данных, например, Python можно изучать уже в 8 – 9 классах (в рамках элективного курса или кружка), а в 10 и 11 классах делать упор на прикладное применение полученных знаний, а именно – на анализ данных с его помощью. Стоит отметить, что сейчас инициатива по преподаванию основ языка Python уже реализуется, например, компанией «Яндекс», которая в 2016 году открыла «Яндекс.Лицей» в четырех городах России [6]. В 2017 году это проект охватил 19 городов России и два города Казахстана. Саратов стал одной из стартовых площадок этого проекта. И ребята, заканчивающие в этом году программу Яндекс.Лицея, своими работами показывают, что освоение языка программирования Python на достаточно высоком уровне под силу школьникам 8-10 классов.
Лучшим инструментом для охвата большой аудитории школьников и ознакомления их с новыми тенденциями в сфере информационных технологий являются научно-популярные лекции. Преподаватели факультета компьютерных наук и информационных технологий Саратовского национального исследовательского государственного университета имени Н.Г. Чернышевского (КНиИТ СГУ) регулярно рассказывают о новшествах в сфере IT школьникам Саратова. Эти лекции проходят в рамках проектов «Школьная академия» (Физико-технический лицей №1) или «Просто о сложном» (Лицей математики и информатики).
Приведем небольшой пример содержания одной такой лекции о больших данных. При работе над ней встал вопрос о том, как показать школьникам: что такое Big Data? Почему они «большие»? Этот термин был введен редактором журнала Nature Клиффордом Линчем в 2008 году. Хорошим наглядным примером демонстрации и визуализации этого термина может явиться сравнение одного байта данных с рисовым зерном (0,03 г). Тогда один килобайт – это чашка риса (30 г), один мегабайт – мешок (30 кг), один гигабайт – это грузовик с прицепом (30 тонн), один терабайт – семь грузовых железнодорожных составов (30000 тонн), один петабайт – сто морских сухогрузов (30 млн. тонн). Разговор о «больших данных» начинается с данных объемом в десятки и сотни петабайт.
Откуда берутся большие данные? В этой части лекции самое главное донести до школьников, что большие данные во многом производим мы сами, когда совершаем покупки, говорим по телефону, общаемся в мессенжерах, играем в онлайн-игры, слушаем музыку или читаем электронную книгу. Даже наше перемещение по городу с мобильным устройством в кармане и фитнес-браслетом на запястье генерирует некоторый объем данных, передаваемый на серверы.
В этом месте очень важно поговорить о безопасности данных и нашей личной безопасности. Жизнь новых поколений значительно изменится благодаря «революции данных». И эти изменения могут иметь как положительный, так и отрицательный оттенок [2]. Использование интернета для организации международных программ общения и обучения школьников, расширяет возможности детей. Но персональные данные детей, которые попадают в сеть, могут использоваться третьими лицами для неизвестных целей. Приведем один лишь пример. В 2015 году фирма Mattel выпустила «smart» Барби, которая через смартфон, подключается к интернету и может быть использована как голосовой помощник ребенка, аналогично Apple Siri или Алисы в Яндекс. Фирма, разработавшая эту куклу, не скрывает того, что детские голоса собираются на серверах и могут быть переданы третьим лицам.[3].
Важной частью обсуждения является рассказ о специалисте в области обработки больших данных. Каким он должен быть? Что знать? Где учиться?
Для участия в научно-популярных лекциях для школьников можно подключать студентов профильных направлений. На факультете КНиИТ СГУ в рамках дисциплины «Введение в специальность» первокурсники выполняют научно-популярные проекты, связанные с разными областями IT-сферы, в том числе, и с машинным обучением. По итогам защиты отбираются лучшие проекты, которые затем представляются в школах города и на дне открытых дверей факультета.
Следующим направлением работы является подготовка школьников к участию в научно-практических конференциях. Тема больших данных и машинного обучения является достаточно сложной для такого вида взаимодействия со школьниками, но вместе с тем очень интересной и современной, имеющей огромное прикладное значение. Конечно, такая работа не ведется «с нуля» и подготовку к конференции нужно начинать заранее. Логично, если первым этапом будет прослушивание научно-популярных лекций и/или посещение элективного курса. Вместе с тем, все больше и больше школьников, которые начинают самостоятельно проявлять интерес к данной теме, получив информацию из сети Интернет, СМИ и т.д., поучаствовав в открытых интернет-уроках (https://ai.proektoria.online/). Например, в 2017-2018 году ученики Физико-технического лицея города Саратова выполнили и представили на конкурс научно-популярные проекты по темам «Нейронные сети», «Компьютерное зрение», «Искусственный интеллект», а в 2018 году в Лицее математики и информатике десятиклассник создал программу для распознавания букв.
В настоящий момент сотрудники факультета КНиИТ СГУ разрабатывают программу и содержание элективного курса для создаваемого предуниверситария «Основы искусственного интеллекта». Занятия по данной теме будут проводиться как в теоретической, так и в практической форме. На теоретических занятиях будут даваться основные понятия, связанные с машинным обучением, анализом больших данных, распознаванием и т.д. На простых примерах будет показано, что такое нейронная сеть, дерево решений, рекомендательная система. На практических занятиях планируется использование Python с упором на библиотеки numpy, pandas, matplotlib [4]. Элементы этого курса были опробованы в текущем 2017-18 учебном году на спецкурсе для 11-классников в Лицее математики и информатики г. Саратова.
Преподаватели факультета КНиИТ СГУ, работающие не только со студентами, но и с детьми, видят перспективу в ознакомлении школьников 8 – 11 классов с основами машинного обучения и работы с большими данными. Используя большие данные, мы можем показать, что выявлять закономерности и работать с ними может и школьник. А в итоге мы можем продемонстрировать детям, что учиться интересно.
Детство в гаджетах: как цифровой мир влияет на мышление ребенка
Мозг наиболее пластичен и восприимчив к изменениям именно в раннем возрасте — особенно это касается периода до 10 лет. Но даже у подростка новые нейронные связи формируются в несколько раз активнее, чем у взрослого человека: мышление, творческие навыки, чувства, начинают развиваться уже после трех лет, и основную роль в этом процессе играет окружающая среда. Сегодня взаимоотношения ребенка с ней во многом определяют гаджеты.
Цифровая реальность
Еще несколько лет назад ребенок познавал окружающий мир через активное взаимодействие с предметами и игрушками. Польза той же пирамидки огромна: попытки собрать ее развивают логику, улучшают координацию, учат восприятию цвета и размера. Все эти умения, формируясь в первые годы жизни, впоследствии оказывают влияние и на успехи в школе. Сегодня же конструкторы и кубики все чаще уступают место мультфильмам, заводным машинкам, музыкальным телефонам — вещам, которые, безусловно, привлекают интерес ребенка и могут занять его на большее время, но не помогают столь же хорошо развивать сложные функции.
Чем старше становится ребенок, тем больше времени он проводит времени за экраном смартфона, планшета, ноутбука: по данным Common Sense Media, американские подростки погружены в свои телефоны больше 7 часов в день, а дети от 8 до 12 лет — почти 5 часов. Российские школьники ведут себя почти так же: как сообщил Герман Греф на Восточном экономическом форуме — 2019, ежедневно они проводят с гаджетами в среднем по 6 часов 20 минут. И вопросы, стоит ли ограничивать это время и как это сделать, — одни из самых противоречивых и болезненных для многих родителей.
С одной стороны, полностью запрещать пользоваться электронными устройствами неразумно: «цифра» играет в нашей жизни огромную роль, игнорировать которую невозможно. К тому же сейчас гаджеты — одно из важнейших средств социализации для подрастающего поколения.
С другой стороны, постоянное «зависание» перед экраном способствует формированию клипового мышления, при котором мозг настроен на восприятие информации через короткие яркие образы. Такое мышление противоположно системному, которое характеризуется способностью выстраивать взаимосвязи между явлениями, самостоятельно делать выводы, анализировать информацию и выявлять закономерности.
Фото: Pixabay
Клиповое и системное
У клипового мышления есть свои положительные стороны: оно защищает мозг от информационных перегрузок, позволяет легко включаться в работу, осваивать новый материал, подстраиваться под любые изменения, развивает многозадачность. Наши дети, безусловно, намного быстрее нас обрабатывают информацию, легко ориентируются в новых цифровых продуктах, оперативнее реагируют на любые стимулы. Человек с клиповым мышлением обычно не испытывает сложностей с тем, чтобы во время разговора с коллегой одновременно отвечать на письмо клиента, вносить изменения в документ и попутно просматривать ленту в Instagram — качество, которое оценят многие работодатели, любящие «многоруких» сотрудников.
Но у такого типа мышления много недостатков: люди с «перекосом» в его сторону плохо работают самостоятельно, не справляются с большими объемами информации. Привыкнув к лаконичным подписям, ярким иллюстрациям и коротким видео, они зачастую не способны осилить многостраничный текст и начинают отвлекаться уже на пятой минуте лекции. У них низкая концентрация внимания, плохая долгосрочная память, отсутствует способность делать аналитические построения и выстраивать логические цепочки. Представителям «клипового» поколения сложно увидеть картину целиком и учесть все факторы, чтобы сделать верные выводы: мозг перестает фиксировать подробности и упрощает ситуацию — а это естественным образом влияет на успеваемость в школе, результаты экзаменов и карьерные успехи. Кроме того, такие люди легко поддаются манипуляциям и внушению, поскольку у них плохо развито критическое мышление с его неотъемлемым элементом — умением тщательно анализировать контекст.
И хотя человек с клиповым мышлением сможет лучше справиться с большим объемом несложных срочных задач, но в дальнейшей карьере, как правило, их опережают коллеги с развитой способностью мыслить системно: делать правильные выводы, замечать противоречия, учитывать контекст, строить прогнозы с учетом множества факторов.
Онлайн-тренировки
Приходится признать, что от потребления цифрового контента, который во многом предопределяет слабое системное мышление, сегодня отказаться невозможно, да и неполезно. Родителям имеет смысл направить свои усилия в двух направлениях: во-первых, следить за тем, сколько времени ребенок проводит перед экраном, а во-вторых, обеспечить факторы и процессы, которые будут развивать у него способность к анализу, логике и обработке информации.
Что касается ограничений на гаджеты, здесь больше работают не столько запреты (которые всегда можно обойти), сколько личный пример: если родители постоянно залипают в телефонах, сложно ожидать, что ребенок будет вести себя иначе. Кроме того, освободившееся время надо занять чем-то равноценным по интересу — жизнь ребенка не должна исчерпываться школой и гаджетами. Хорошо, чтобы у него было какое-то хобби: спорт, танцы, рисование — занятия, которые будут способствовать развитию креативных навыков. Здесь тоже высока роль родителей, которые могут показать ребенку разные возможности и увлечь его.
Наконец, цифровое пространство далеко не всегда равнозначно бесполезному. Да, часто дети проводят время за экраном, играя или просматривая видео в TikTok, но это не значит, что в онлайн-мире недостаточно полезного контента, обучающих платформ, развивающих игр, интересных документальных фильмов и качественных художественных произведений.
Миллионы школьников уже сегодня самостоятельно и вместе с учителем проходят онлайн-курсы, олимпиады и обучающие игры по темам школьной программы, развивают soft skills, учатся программированию. То есть дети получают важные знания в понятном для них интерактивном формате: проводят время с пользой и с интересом.
Больше текстов о психологии, отношениях, детях и образовании — в нашем телеграм-канале «Проект «Сноб” — Личное». Присоединяйтесь
Big Data: что это и где применяется?
Почему все вокруг говорят про большие данные? Какие именно данные считаются большими? Где их искать, зачем они нужны, как на них заработать? Объясняем простыми словами вместе с экспертом SkillFactory — ведущим автором курса по машинному обучению, старшим аналитиком в «КиноПоиске» Александром Кондрашкиным.
Что такое Big Data
Big Data (большие данные) — огромные наборы разнообразных данных. Огромные, потому что их объемы такие, что простой компьютер не справится с их обработкой, а разнообразные — потому что эти данные разного формата, неструктурированные и содержат ошибки. Большие данные быстро накапливаются и используются для разных целей.
Big Data — это не обычная база данных, даже если она очень большая. Вот отличия:
Не большие данные | Большие данные |
---|---|
База записей о тысячах работников корпорации. Информация в такой базе имеет заранее известные характеристики и свойства, ее можно представить в виде таблицы, как в Excel. | Журнал действий сотрудников. Например, все данные, которые создает во время работы колл-центр, где работает 500 человек. |
Информация об именах, возрасте и семейном положении всех 2,5 миллиардов пользователей Facebook — это всего лишь очень большая база данных. | Переходы по ссылкам, отправленные и полученные сообщения, лайки и репосты, движения мыши или касания экранов смартфонов всех пользователей Facebook. |
Архив записей городских камер видеонаблюдения. | Данные системы видеофиксации нарушений правил дорожного движения с информацией о дорожной ситуации и номерах автомобилей нарушителей; информация о пассажирах метро, полученная с помощью системы распознавания лиц, и о том, кто из них числится в розыске. |
Объем информации в мире увеличивается ежесекундно, и то, что считали большими данными десятилетие назад, теперь умещается на жесткий диск домашнего компьютера.
60 лет назад жесткий диск на 5 мегабайт был в два раза больше холодильника и весил около тонны. Современный жесткий диск в любом компьютере вмещает до полутора десятков терабайт (1 терабайт равен 1 млн мегабайт) и по размерам меньше обычной книги.
В 2021 году большие данные измеряют в петабайтах. Один петабайт равен миллиону гигабайт. Трехчасовой фильм в формате 4K «весит» 60‒90 гигабайт, а весь YouTube — 5 петабайт или 67 тысяч таких фильмов. 1 млн петабайт — это 1 зеттабайт.
Data Scientist с нуля
Cтаньте дата-сайентистом и приручите большие данные. Вы научитесь выявлять закономерности в данных и создавать модели для решения бизнес-задач.
Скидка 45% по промокоду BLOG.
Как работает технология Big Data?
Источники сбора больших данных делятся на три типа:
Все, что человек делает в сети, — источник социальных больших данных. Каждую секунду пользователи загружают в Instagram 1 тыс. фото и отправляют более 3 млн электронных писем. Ежесекундный личный вклад каждого человека — в среднем 1,7 мегабайта.
Другие примеры социальных источников Big Data — статистики стран и городов, данные о перемещениях людей, регистрации смертей и рождений и медицинские записи.
Большие данные также генерируются машинами, датчиками и «интернетом вещей». Информацию получают от смартфонов, умных колонок, лампочек и систем умного дома, видеокамер на улицах, метеоспутников.
Транзакционные данные возникают при покупках, переводах денег, поставках товаров и операциях с банкоматами.
Как обрабатывают большие данные?
Массивы Big Data настолько большие, что простой Excel с ними не справится. Поэтому для работы с ними используют специальное ПО.
Его называют «горизонтально масштабируемым», потому что оно распределяет задачи между несколькими компьютерами, одновременно обрабатывающими информацию. Чем больше машин задействовано в работе, тем выше производительность процесса.
Такое ПО основано на MapReduce, модели параллельных вычислений. Модель работает так:
MapReduce — не конкретная программа, а скорее алгоритм, с помощью которого можно решить большинство задач обработки больших данных.
Примеры ПО, которое основывается на MapReduce:
Специалисты по большим данным используют оба инструмента: Hadoop для создания инфраструктуры данных и Spark для обработки потоковой информации в реальном времени.
Где применяется аналитика больших данных?
Большие данные нужны в маркетинге, перевозках, автомобилестроении, здравоохранении, науке, сельском хозяйстве и других сферах, в которых можно собрать и обработать нужные массивы информации.
Бизнесу большие данные нужны, чтобы:
Анализ больших данных позволяет не только систематизировать информацию, но и находить неочевидные причинно-следственные связи.
Продажи товаров
Онлайн-маркетплейс Amazon запустил систему рекомендаций товаров, работающую на машинном обучении. Она учитывает не только поведение и предыдущие покупки пользователя, но и время года, ближайшие праздники и остальные факторы. После того как эта система заработала, рекомендации начали генерировать 35% всех продаж сервиса.
В супермаркетах «Лента» с помощью больших данных анализируют информацию о покупках и предлагают персонализированные скидки на товары. К примеру, говорят в компании, система по данным о покупках может понять, что клиент изменил подход к питанию, и начнет предлагать ему подходящие продукты.
Американская сеть Kroger использует большие данные для персонализации скидочных купонов, которые получают покупатели по электронной почте. После того как их сделали индивидуальными, подходящими конкретным покупателям, доля покупок только по ним выросла с 3,7 до 70%.
Найм сотрудников
Крупные компании, в том числе российские, стали прибегать к помощи роботов-рекрутеров, чтобы на начальном этапе поиска сотрудника отсеять тех, кто не заинтересован в вакансии или не подходит под нее. Так, компания Stafory разработала робота Веру, которая сортирует резюме, делает первичный обзвон и выделяет заинтересованных кандидатов. PepsiCo заполнила 10% нужных вакансий только с помощью робота.
Банки
Автомобилестроение
В 2020 году у автоконцерна Toyota возникла проблема: нужно было понять причину большого числа аварий по вине водителей, перепутавших педали газа и тормоза. Компания собрала данные со своих автомобилей, подключенных к интернету, и на их основе определила, как именно люди нажимают на педали.
Оказалось, что сила и скорость давления различаются в зависимости от того, хочет человек затормозить или ускориться. Теперь компания разрабатывает систему, которая будет определять манеру давления на педали во время движения и сбросит скорость автомобиля, если водитель давит на педаль газа, но делает это так, будто хочет затормозить.
Медицина
Американские ученые научились с помощью больших данных определять, как распространяется депрессия. Исследователь Мунмун Де Чаудхури и ее коллеги загрузили в прогностическую модель сообщения из Twitter, Facebook и Reddit с геометками. Сообщения отбирали по словам, которые могут указывать на депрессивное и подавленное состояние. Расчеты совпали с официальными данными.
Госструктуры
Большие данные просто необходимы госструктурам. С их помощью ведется не только статистика, но и слежка за гражданами. Подобные системы есть во многих странах: известен сервис PRISM, которыми пользуются ФБР и ЦРУ для сбора персональных данных из соцсетей и продуктов Microsoft, Google и Apple. В России информацию о пользователях и телефонных звонках собирает система СОРМ.
Маркетинг
Социальные большие данные помогают группировать пользователей по интересам и персонализировать для них рекламу. Людей ранжируют по возрасту, полу, интересам и месту проживания. Те, кто живут в одном регионе, бывают в одних и тех же местах, смотрят видео и читают статьи на похожие темы, скорее всего, заинтересуются одними и теми же товарами.
При этом регулярно происходят скандалы, связанные с использованием больших данных в маркетинге. Так, в 2018 году стриминговую платформу Netflix обвинили в расизме из-за того, что она показывает пользователям разные постеры фильмов и сериалов в зависимости от их пола и национальности.
Медиа
С помощью анализа больших данных в медиа измеряют аудиторию. В этом случае Big Data может даже повлиять на политику редакции. Так, издание Huffington Post использует систему, которая в режиме реального времени показывает статистику посещений, комментариев и других действий пользователей, а также готовит аналитические отчеты.
Система в Huffington Post оценивает, насколько эффективно заголовки привлекают внимание читателя, разрабатывает методы доставки контента определенным категориям пользователей. Например, выяснилось, что родители чаще читают статьи со смартфона и поздно вечером в будни, после того как уложили детей спать, а по выходным они обычно заняты, — в итоге контент для родителей публикуется на сайте в удобное для них время.
Логистика
Использование больших данных помогает оптимизировать перевозки, сделать доставку быстрее и дешевле. В компании DHL работа с большими данными коснулась так называемой проблемы последней мили, когда необходимость проехать через дворы и найти парковку перед тем, как отдать заказ, съедает в общей сложности 28% от стоимости доставки. В компании стали анализировать «последние мили» с помощью информации с GPS и данных о дорожной обстановке. В результате удалось сократить затраты на топливо и время доставки груза.
Внутри компании большие данные помогают отслеживать качество работы сотрудников, соблюдение контрольных сроков, правильность их действий. Для анализа используют машинные данные, например со сканеров посылок в отделениях, и социальные — отзывы посетителей отделения в приложении, на сайтах и в соцсетях.
Обработка фото
До 2016 года не было технологии нейросетей на мобильных устройствах, это даже считали невозможным. Прорыв в этой области (в том числе благодаря российскому стартапу Prisma) позволяет нам сегодня пользоваться огромным количеством фильтров, стилей и разных эффектов на фотографиях и видео.
Аренда недвижимости
Сервис Airbnb с помощью Big Data изменил поведение пользователей. Однажды выяснилось, что посетители сайта по аренде недвижимости из Азии слишком быстро его покидают и не возвращаются. Оказалось, что они переходят с главной страницы на «Места поблизости» и уходят смотреть фотографии без дальнейшего бронирования.
Компания детально проанализировала поведение пользователей и заменила ссылки в разделе «Места поблизости» на самые популярные направления для путешествий в азиатских странах. В итоге конверсия в бронирования из этой части планеты выросла на 10%.
Кто работает с большими данными?
Дата-сайентисты специализируются на анализе Big Data. Они ищут закономерности, строят модели и на их основе прогнозируют будущие события.
Например, исследователь больших данных может использовать статистику по снятиям денег в банкоматах, чтобы разработать математическую модель для предсказания спроса на наличные. Эта система подскажет инкассаторам, сколько денег и когда привезти в конкретный банкомат.
Чтобы освоить эту профессию, необходимо понимание основ математического анализа и знание языков программирования, например Python или R, а также умение работать с SQL-базами данных.
Data Scientist с нуля
Вы освоите Python и SQL, познакомитесь с машинным обучением и определитесь со специализацией: Machine Learning, Computer Vision или Natural Language Processing. Скидка 5% по промокоду BLOG.
Аналитик данных использует тот же набор инструментов, что и дата-сайентист, но для других целей. Его задачи — делать описательный анализ, интерпретировать и представлять данные в удобной для восприятия форме. Он обрабатывает данные и выдает результат, составляя аналитические отчеты, статистику и прогнозы.
С Big Data также работают и другие специалисты, для которых это не основная сфера работы:
Освойте все инструменты, необходимые junior-аналитику и получите востребованную профессию за 6 месяцев.
Скидка 45% по промокоду BLOG.
Дата-инженер занимается технической стороной вопроса и первый работает с информацией: организует ее сбор, хранение и первоначальную обработку.
Дата-инженеры помогают исследователям, создавая ПО и алгоритмы для автоматизации задач. Без таких инструментов большие данные были бы бесполезны, так как их объемы невозможно обработать. Для этой профессии важно знание Python и SQL, уметь работать с фреймворками, например со Spark.
Курс подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Скидка 45% по промокоду BLOG.
Александр Кондрашкин о других профессиях, в которых может понадобиться Big Data: «Где-то может и product-менеджер сам сходить в Hadoop-кластер и посчитать что-то несложное, если обладает такими навыками. Наверняка есть множество backend-разработчиков и DevOps-инженеров, которые настраивают хранение и сбор данных от пользователей».
Востребованность больших данных и специалистов по ним
Востребованность больших данных растет: по исследованиям 2020 года, даже при пессимистичном сценарии объем рынка Big Data в России к 2024 году вырастет с 45 млрд до 65 млрд рублей, а при хорошем развитии событий — до 230 млрд.
Вместе с популярностью больших данных растет запрос и на тех, кто может эффективно с ними работать. В середине 2020 года Академия больших данных MADE от Mail.ru Group и HeadHunter провели исследование и выяснили, что специалисты по анализу данных уже являются одними из самых востребованных на рынке труда в России. За четыре года число вакансий в этой области увеличилось почти в 10 раз.
Более трети вакансий для специалистов по анализу данных (38%) приходится на IT-компании, финансовый сектор (29%) и сферу услуг для бизнеса (9%). В сфере машинного обучения IT-компании публикуют 55% вакансий на рынке, 10% приходит из финансового сектора и 9% — из сферы услуг.
Как начать работать с большими данными?
Проще будет начать, если у вас уже есть понимание алгоритмов и хорошее знание математики, но это не обязательно. Например, Оксана Дереза была филологом и для нее главной трудностью в Data Science оказалось вспомнить математику и разобраться в алгоритмах, но она много занималась и теперь анализирует данные в исследовательском институте.
Еще несколько историй людей, которые успешно освоили data-профессию
Если у вас нет математических знаний, на курсе SkillFactory «Data Science с нуля» вы получите достаточную подготовку, чтобы работать с большими данными. За год вы научитесь получать данные из веб-источников или по API, визуализировать данные с помощью Pandas и Matplotlib, применять методы математического анализа, линейной алгебры, статистики и теории вероятности для обработки данных и многое другое.
Чтобы стать аналитиком данных, вам пригодится знание Python и SQL — эти навыки очень популярны в вакансиях компаний по поиску соответствующей позиции. На курсе «Аналитик данных» вы получите базу знаний основных инструментов аналитики (от Google-таблиц до Python и Power BI) и закрепите их на тренажерах.
Важно определиться со сферой, в которой вы хотите работать. Студентка SkillFactory Екатерина Карпова, рассказывает, что после обучения ей была важна не должность, а сфера (финтех), поэтому она сначала устроилась консультантом в банк «Тинькофф», а теперь работает там аналитиком.
Data Science с нуля
Освойте все необходимые инструменты для уровня junior и получите самую востребованную IT-профессию 2021 года.