От больших данных к озеру данных: почему складировать все в одно мега-хранилище — не лучший вариант

Data-driving актуален для всех компаний мира, но он требует инфраструктуры. Располагая данными, к ним нужно иметь доступ — быстрый, простой и, по возможности, обеспечиваемый с минимальными затратами. Специализированные решения для организации данных представлены, для крупных проектов наиболее интересны использующие виртуализацию.

Возможности больших данных активно использует даже малый бизнес, но с ростом компаний до среднего размера а тем более, до уровня корпораций нужны качественно иные решения. «Озера данных» (DataLake) по сути представляют собой совокупность множества «БигДат». Актуальность таких наборов данных для современного бизнеса очевидна, но возникает вопрос: где и как их хранить? Согласно неписанному правилу «BigData начинается от Петабайта», так что можете представить себе объемы хранилищ, нужные для «озер данных»!

Напомним, что с «озерами данных» будут активно работать, как используя хранимую там информацию, так и пополняя их из различных источников. Это означает, что складировать все в одно мега-хранилище не лучший вариант, нужно создавать и реализовывать структуры данных, соответствующие задачам корпорации, причем на принципах нового уровня. Распределить большие данные по разным хранилищам можно, иногда это даже полезно: такой подход позволяет, например, располагать компоненты «озера» поближе к группам аналитиков, которые работают с теми или иными данными, или к местам получения данных.

Но как при этом сохранить единство DataLake? Единство необходимо иначе слишком много времени будет уходить на поиск нужных данных среди отдельных «озерцов», будет нарушена сама концепция DataLake. «Прежние архитектуры не позволяли предоставить бизнесу все данные, поскольку собрать их в едином репозитории зачастую физически невозможно», говорит региональный вице-президент Denodo Оливье Тижу. Нужна виртуализация, способная объединить данные компании в единую структуру.

Виртуализация и ее общие особенности

Виртуализация является предоставлением набора вычислительных ресурсов, абстрагированным от их аппаратной реализации. Это универсальное определение, работающее и в нашем случае. По сути, над разрозненными и распределенными хранилищами больших данных будет добавлена еще одна структура специализированный «гипервизор», результатом работы которого будет представление всей структуры данных как единого DataLake. Здесь получаем ряд преимуществ.

В первую очередь, виртуализация это история про оптимизацию ресурсов. В большинстве случаев оборудование, используемое в традиционной парадигме, работает с загрузкой порядка 3040%. Это среднее значение, иногда бывает и меньше, чему есть ряд объективных причин: покупают «на вырост», держат резерв под пиковые нагрузки и т. д. Однако с экономической точки зрения это недопустимая расточительность.

Особенно, если речь идет о хранилищах большого объема, причем для размещения «горячих» данных к которым часто идет обращение при процессах DataMining или как минимум «теплых»! В результате виртуализации загрузка оборудования существенно возрастет, равно как и эффективность использования вложенных в него средств компании.

Вторая ключевая история, связанная с виртуализацией повышение гибкости инфраструктуры. Это хорошо заметно на виртуальных ПК, которые можно разворачивать десятками за секунды, а создавать с такой скоростью физическую инфраструктуру по понятным причинам не удастся. Это справедливо и для хранилищ: при виртуализации можно комбинировать физические с «облачными», реляционные базы с нереляционными, а также настраивать репликацию, параметры хранения, защиту и т. д.

Есть и другие истории, связанные с преимуществами виртуализации: повышение надежности, снижение рисков, увеличение эффективности финансовых вложений, доступ к преимуществам перехода из CAPEX в OPEX и т. д.

Виртуализация данным

«Виртуализация позволяет создать новый логический уровень абстракции, обеспечить подключение ко всем имеющимся источникам данных и предоставить к ним доступ из витрин данных и из других приложений, обеспечивая эффективное управление данными, их маскирование и безопасность», говорит директор по управлению данными Denodo Алексей Сидоров.

Это существенно упрощает создание «озер данных» и, главное, их использование. В свою очередь результат такого подхода важен для ряда других трендовых направлений: от классической предиктивной аналитики и создания отчетов до разных форм DataMining из больших данных, а также для создания AI-инструментов и применения связанных с этим процессом технологий DL/ML.

«Среди компаний небольшого размера можно встретить скептически относящихся к нашим инструментам. Но корпорации обычно сразу понимают преимущества предлагаемой нами архитектуры», говорит Оливье Тижу. Это вполне логично: где бизнес работает с «обычными» большими данными, там ему не нужна структура для «озер данных», но если массивов больших данных становится много, то ситуация меняется радикально. Где востребованы DataLake там решения Denodo актуальны: финансы, страхование, телеком, ритейл, добывающая промышленность (нефть/газ, руда, уголь и пр.), транспорт и т. д. В ряде регионов в этот перечень попадают и госструктуры например, как рассказал Алексей Сидоров, решение было внедрено в Саудовской Аравии для организации, аналогичной Пенсионному фонду РФ, а также в Голландии, Англии, Эстонии и Италии, для организаций, аналогичных Росстату.

Решение Denodo актуально и для крупных технологических компаний. К примеру, на основе виртуализации от Denodo построила глобальную систему управления данными корпорация Intel. В этом масштабном решении, как отметил директор по продажам Denodo Александр Прохоров, за виртуализацию отвечают несколько серверов Denodo что соответствует размерам и сложности задачи: для 3 000 различных сервисов данные поступают из 309 источников. Кстати, «король виртуализации» компания VMware также является клиентом Denodo. Известно, что переговоры о внедрении решений Denodo идут и с крупнейшими российскими индустриальными структурами (data driving повсюду!), но деталей стороны пока не раскрывают по понятным причинам.

Внедрения реальные и потенциальные

Крупный бизнес в России проявляет активный интерес к решениям Denodo. На российском рынке компания присутствует чуть больше года, но уже ведет несколько крупных внедрений. «Пока проекты не завершены мы не можем раскрывать ни технические детали, ни клиентов. Но решения очень интересные в техническом плане», говорит Александр Прохоров.

Разворачивание и внедрение решения происходит достаточно быстро за пару недель. В стоимость лицензии продуктов Denodo входят две недели «professional service», напоминает Алексей Сидоров, что упрощает работы по внедрению: например, в Intel обучили 800 пользователей за две 4-часовые сессии. Но перед технической реализацией необходимо подписание ряда документов, многие из которых в российских условиях быстро подготовить невозможно. Поэтому подготовительный этап оказывается по времени много больше, чем само внедрение продуктов.

Конечно, Denodo не единственный вендор, поставляющий решения для управления данными, но фактически единственный, кто практикует для этого виртуализацию. При кажущейся простоте концепта за решением стоит сложная математика и технические инструменты, которые развивали десятилетиями. Во всяком случае пока ни один глобальный вендор не смог предложить рынку решения, сравнимые с реализованными Denodo. Это подтверждают данные «квадранта Gartner», где Denodo в классе Data Integration Tools единственный лидер, практикующий виртуализацию.

«Глобальные конкуренты у нас, конечно, есть, но они начали значительно позже нас и в линейке своих продуктов рассматривают виртуализацию как один из инструментов управления данными. А потому могут предложить решения, которые мы опережаем на два поколения, уверен Алексей Сидоров. Продукт наукоемкий, создать аналоги методом «бутфорса» нельзя, хотя конкуренты пытались». По той же причине у Denodo нет конкурентов в плане импортозамещения. Из интересных внедрений можно назвать реализованные в компаниях T-Mobile, Logitech, ABN AMRO, BNP Paribas, Volkswagen, Walmart, Sanofi, GE Capital, Daimler, AirEuropa, Santander, Inditex, Bayer, Johannesburg Stock Exchange, BHP Billiton и др.

Важно, что концепция виртуализации, практикуемая Denodo, позволяет получать и другие позитивные эффекты. К примеру, при использовании виртуализации для создания «Озер данных» нет проблем при работе с персональными данными. Сервера Denodo, отвечающие за виртуализацию, работают только с метаданными, никаких данных они не хранят, следовательно, не требуют сертифицирования что существенно упрощает создание инфраструктур в российских условиях.

Обсудить и заказать можно через форму ниже

От больших данных к озеру данных: почему складировать все в одно мега-хранилище — не лучший вариант
Создание недорогих сайтов
Добавить комментарий