Управление данными

Big Data — серия подходов, инструментов и методов обработки, структурированных и неструктурированных данных огромных объёмов и многообразия для получения воспринимаемых человеком результатов.

Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация — это все примеры источников, способных генерировать гигантские объемы информации. По данным исследования IDC Digital Universe, опубликованного в 2012 году, ближайшие 8 лет количество данных в мире достигнет 40 Зб (зетабайт) что эквивалентно 5200 Гб на каждого жителя планеты!

Еще примеры того, что может быть источником данных, для которых необходимы методы работы с большими данными:

  • логи поведения пользователей в интернете;
  • GPS-сигналы от автомобилей для транспортной компании;
  • оцифрованные книги в Российской Государственной Библиотеке;
  • информация о транзакциях всех клиентов банка;
  • информация о всех покупках в крупной ритейл-сети и т.д.

Чтобы работать с большими данными нужно уметь их:

Собирать

читать с датчиков, забирать из транзакционных систем, подключаться к соц. сетям

Хранить

управлять неструктурированными данными, состоящими из текстов, изображений, видео и других типов, объединять данные из разных источников, обеспечивать возможность доступа из аналитических и транзакционных приложений

Обрабатывать

анализировать, определять закономерности, искать и фильтровать информацию, давать рекомендации и заключения

Сложности работы с большими данными:

  • выбор обрабатываемых данных: определение того, какие данные необходимо извлекать, хранить и анализировать, а какие — не принимать во внимание.
    • Пример — Каждый год Лондон посещают 17 миллионов туристов. Каждый делает фото Биг Бена. Одна фотография занимает примерно 1 Мб. Итого мы имеем 17 ТБ данных! Попробуйте поискать то же самое в google. Вы получите порядка 250 миллионов результатов. Это ¼ Петабайта данных! Сколько из этого полезной информации о том, как выглядит Биг Бен? 2–3 фото... Но, чтобы понять это, машине, возможно, потребуется обработать весь массив исходной информации, чтобы найти те 2–3 фотографии, которые и будут для вас полезны.
  • нехватка специалистов — маркетологов-аналитиков, специалистов по методам анализа данных (data scientists). От качества работы сотрудников, занимающихся глубинной и предикативной аналитикой, напрямую зависит скорость возврата инвестиций от проектов Big Data
  • устаревшие бизнес-процессы или внутренние регламенты не позволяют использовать огромный потенциал уже существующих в организации данных
  • в режиме реального времени должен происходить процесс извлечения данных из внешних источников, их трансформация, очистка и загрузка в хранилище данных в связи с большим объемом и высокой скоростью потока данных
  • нет доверия к полученным результатам — низкая культура работы с данными и острая нехватка специалистов в наших компаниях приводят к тому, что полученному в результате работы алгоритма результату не доверяют бизнес-пользователи. Так как проверить результат на таком объеме невозможно (да и нет четкого алгоритма решения задачи), то приходится доверять машине, что нашим пользователям сделать нелегко
  • обеспечения безопасности данных, поступающих из внешних источников, должны иметь решения, соответствующие объемам собираемой информации

В настоящий момент каждая компания ищет практические сценарии работы с Big Data, которые смогут принести компании пользу. Вот лишь некоторые примеры практического использования данной технологии.

Пример 1.

Металлургическое производство — очень сложный процесс. Управлять им — большое искусство! Например, при выплавке стали через специальные устройства — фурмы — в печь подается воздух. От огромных температур они регулярно прогорают, что негативно сказывается на качестве выплавляемой стали. Раз в две недели, во время технологического перерыва, фурмы можно поменять. С уже сгоревшими все понятно. А что делать с еще хорошими? Смогут ли они проработать еще две недели или сгорят через день, испортив всю плавку? Даже очень опытному специалисту тяжело это определить. Алгоритм по работе с большими данными на базе искусственного интеллекта проанализирует тысячи показателей, учтет все нюансы производства: температурные режимы, химический состав стали, давления дутья и подскажет правильное решение! Расчеты показали, что годовой экономический эффект предприятия от внедрения сценария составит около 65 миллионов рублей.

Пример 2.

Функционал системы по работе с персоналом SAP Success Factors может быть существенно расширен технологией работы с большими данными для построения карьерного пути сотрудника.

Пример 3.

Прогнозирование объема закупок. Для крупных компаний планирование закупок на 3–4 года вперед является желанной задачей. Однако учесть все влияющие факторы очень сложно. На закупки могут влиять курсы валют, биржевые данные (котировки нефти, металлов), тенденции и направления в развитии индустрии (например, развитие шельфового бурения) и многое другое. Только автоматизированным способом можно найти влияющие факторы и максимально точно спрогнозировать закупки.

Что еще могут большие данные?
  • Прогнозировать сбои оборудования
    • Прогнозная модель позволяет предупредить остановку процессов, предлагая комплекс мероприятий по обслуживанию оборудования. Торговые и игровые автоматы, банкоматы, вышки сотовой связи, промышленные станки или пользовательское оборудование — все эти устройства могут передавать информацию о своем состоянии (температура, вибрация и прочее). На основе истории собранных технологических параметров работы оборудования, а также истории предупреждений и сбоев создается модель, которая может предсказывать критические ситуации, требующие остановки оборудования или его ремонта.

  • Прогнозировать загрузку оборудования
    • Расчет влияния макроэкономических и иных внешних факторов на бизнес представляет собой очень сложную задачу. На основе истории продаж, оплат, отгрузок, макроэкономических факторов, таких как прогнозы уровня цен товаров и сырья, стоимость биржевых индексов и т.д., создается модель, позволяющая прогнозировать объем сбыта, точно рассчитать потребность в оборудовании, избежать простоев или недостатка производственных мощностей.

  • Повышать качество продукции
    • На основе данных о технологических параметрах оборудования (вибрация, температура и др.), условиях внешней среды, а также истории контроля качества продукции, создается прогнозная модель. Такая модель способна определять шаблоны параметров оборудования, являющиеся признаком будущих проблем с оборудованием.

  • Планировать использование спецтехники для поддержки транспортировки грузов
    • Погодные условия могут создать проблему для транспортировки грузов, например, сильный снегопад, шторм или толстый лед. В ряде случаев только спецтехника может обеспечить проход основного грузового транспорта. На основе данных со спутника, метео-сервисов и других источников определяются зоны риска, где может возникнуть необходимость в спецтехнике. Модель прогнозирования позволяет оптимально спланировать участие ледоколов, снегоуборочных машин, разработать оптимальные маршруты, снизив таким образом расходы и время ожидания.

  • Разрабатывать оптимальные маршруты обслуживания оборудования
    • Своевременное обслуживание удаленного оборудования также можно организовать с использованием прогнозных моделей. На основе исторических данных о продажах и внешних условиях, например, событиях в зоне размещения автомата (футбольный матч, концерт) создается модель прогноза продаж конкретного автомата и график его технического обслуживания. Это позволяет определить оптимальную маршрутную карту для специалистов, которые обслуживают автомат.

  • Оптимизировать инвестиции в маркетинговую кампанию
    • Компании, располагающие историческими данными по проведению маркетинговых кампаний, могут использовать эти данные для прогнозирования финансовых результатов. На основании информации о результативности прошлых кампаний, программ лояльности, макроэкономических факторов создается прогнозная модель, способная оценить эффективность новых маркетинговых кампаний.

  • Выявлять факторы, влияющие на финансовые результаты
    • Для планирования необходимо понимать факторы, влияющие на финансовые результаты. Использование предиктивной аналитики позволяет смоделировать сценарии и определить характер влияния того или иного решения. Предоставляется возможность находить статистическую зависимость между финансовыми показателями компании и другими историческими наборами данных.

  • Прогнозировать возникновение просроченной дебиторской задолженности
    • На основе истории отгрузок, платежей дебиторов, данных по ценам производных или связанных товаров, макроэкономических факторов создается прогнозная модель, определяющая риски по каждому дебитору. В результате в компании снижается уровень просроченной дебиторской задолженности за счет активной работы с потенциальными проблемными дебиторами.

  • Выбирать оптимальное место для малой коммерции
    • Прогнозная модель, созданная на основе данных из открытых источников о размещении торговых предприятий, транзакциях, перемещении людей, погодных условиях позволяет оценить вероятность, насколько прибыльным может быть данный вид торговли в выбранном месте. С помощью такого моделирования можно подобрать лучшее место для открытия торговой точки.

  • Повышать прибыльность тарифов
    • К моменту вывода нового пакета услуг на рынок компания может спрогнозировать, как данный пакет повлияет на продажи других услуг, и какова будет прибыль от данного пакета. С помощью модели, построенной на истории предложений тарифов, данных о действиях потребителей есть возможность видеть не только маржинальность пакета услуг за отдельный период, но и проследить как меняется маржинальность абонентов в зависимости от набора подключенных им услуг.