В начале 2017 года Informatica выпустила обновленную версию платформы Intelligent Data Lake (IDL), предлагающей рынку новую концепцию управления корпоративными данными в условиях современных трендов и вызовов. Платформа помогает повысить доступность данных для широкого круга пользователей и решает вопрос эффективного поиска, быстрого прототипирования и самостоятельного получения пользователем первых результатов без необходимости обращения в ИТ. Такие возможности становятся все более и более востребованы с учетом развивающегося тренда data driven company, когда многие компании ставят именно данные во главу угла, и все больше специалистов должны быть обеспечены необходимой информацией, чтобы принимать на ее основе прозрачные решения и извлекать для компании выгоды.
Informatica является традиционным игроком и мировым лидером в области управления данными, предлагая бизнесу и ИТ промышленную платформу, позволяющую эффективно решить весь комплекс задач, так или иначе связанных с управлением данными на всем их жизненном цикле, что, в конечном итоге, помогает компании более эффективно работать с данными и перевести их в разряд ключевого актива организации. Решение IDL является еще одним звеном, расширяющим возможности данной платформы в области работы с Big Data. Так что же такое Intelligent Data Lake, и как решение помогает бизнесу?
С наступлением эры больших данных (Big Data) многие организации всерьез задумались о применении нового подхода к сбору, хранению и анализу своих данных. Если раньше данные анализировались выборочно, под набор конкретных и понятных задач, то сегодня все чаще и чаще компании стремятся сохранить все исходные данные и присовокупить к ним самые различные внешние источники, чтобы иметь возможность всестороннего анализа. Когда сегодня мы принимаем решение, какую информацию сохранять, а какую – нет, мы можем даже не знать, как будем использовать ее в будущем. Но спустя время возникает идея или гипотеза, которая опирается на сохраненные данные и способна не просто окупить все затраты на их хранение, но вывести компанию на новые горизонты развития. Появляется возможность получить принципиальные конкурентные преимущества, вывести на рынок новый успешный продукт, завоевать сердца тысяч новых клиентов, предложить уникальный сервис и т.д. Только одна идея из многих сработает, но она может до неузнаваемости изменить бизнес, и многие компании не хотят сегодня упускать подобные возможности.
Согласно концепции Data Lake сохраняется как можно больше данных в едином месте, включая данные из всех транзакционных систем, все накопленные знания из корпоративных хранилищ и систем аналитики, исходные журналы и машинные данные, информацию от партнеров, данные социальных сетей и т.д. Решение Data Lake должно обеспечивать возможность совместного хранения и обработки разнотипных данных, а также хорошо масштабироваться. Как правило, такие решения разворачиваются на базе кластера Hadoop, который позволяет относительно дешево хранить и анализировать огромные объемы структурированных и неструктурированных данных из самых различных внутренних и внешних источников.
Однако, сохранить и собрать информацию в одном месте недостаточно. Возникает вопрос эффективного обеспечения данными существенно более широкого круга пользователей, чем ранее. Если в компании работает несколько тысяч человек, а анализом данных занимается 10-15 аналитиков, то, очевидно, что компания не использует свой потенциал и вряд ли сможет перестроиться и развить успешный бизнес вокруг данных. Второй момент, который здесь возникает, - это трудность поиска той информации, которая нужна конкретному аналитику для ответа на конкретный вопрос с учетом сотен и тысяч источников и потоков данных, большого многообразия структур, различий в трактовке данных, различных проблем с их качеством и, часто, отсутствия или неточности документации. И наконец, нужно реализовать логику обработки этих данных, а не каждый аналитик обладает знанием java и технологий Hadoop. Из-за этих вопросов пользователь, как правило, вынужден большую часть своего времени тратить не на анализ, а на поиск, перегрузку и различные подготовительные работы с данными.
Именно эти моменты и помогает решить Informatica IDL, обеспечивая широкому кругу пользователей эффективный поиск и быстрый доступ к данным, а также возможность самостоятельно построить прототип и проверить свою гипотезу. К ключевым возможностям системы относятся приведенные ниже функции.
1. Самостоятельный поиск и discovery необходимых данных
Любой аналитик или бизнес-пользователь получает возможность провести поиск и исследование всех данных, которые доступны и могут быть использованы для решения той или иной задачи. Система сканирует метаданные всех подключенных источников, в автоматическом режиме индексирует их и запоминает результаты. Благодаря этому любой пользователь быстро и легко с помощью поисковой строки может найти нужные ему данные, где бы они ни находились. Важно отметить, что поиск может производиться как по внутренним корпоративным данным, так и по данным, загруженным из внешних источников. Результаты могут быть ограничены и уточнены с помощью многочисленных фильтров, прикрепленных тегов и другой сопроводительной информации.
2. Исследование найденных данных
После того, как пользователь нашел первые наборы данных, которые, на первый взгляд, могут помочь решить его задачу, ему необходимо получить более детальную информацию и убедиться в том, что эти данные действительно пригодны для данного анализа. На этом этапе IDL предоставляет возможность изучить дополнительные аспекты: как найденные данные связаны с другими наборами данных, из каких источников они приходят, куда попадают в конечном итоге, кто и какой анализ уже строит по этим данным. Система помогает нам, показывая связи найденного набора данных, диаграмму происхождения и влияния, пользовательские оценки, результаты профилирования (оценки качества данных), автоматически выявленные домены данных и многое другое. Двигаясь по диаграмме связей, например, мы можем понять, что нужные нам данные уже загружены в кластер, и нам нет необходимости заново доставать их из источника и терять на этом время - они уже доступны для анализа. Мы можем увидеть, какие еще наборы данных могут быть полезны. Таким образом, система помогает не просто найти необходимые данные, но и быстро в них сориентироваться, отсечь ненужное, добавить дополнительные источники и сформировать итоговый пул данных для анализа.
3. Организация рабочей области для анализа
Чтобы пользователь мог поработать с самими данными, они все уже должны находиться в рабочей области Data Lake. Здесь пользователь в зависимости от объемов, его прав и экспертизы может либо самостоятельно инициировать перегрузку данных, используя встроенный инструментарий системы, либо сделать запрос в IT. Далее все найденные наборы данных объединяются в проект, при этом пользователь может пригласить своих коллег присоединиться к работе либо как полноправных участников, либо просто для просмотра. На этом этапе система, анализируя опыт других пользователей, предлагает рекомендации и подсказки, какие наборы данных могли быть забыты и будут также полезны. Вы легко, одним кликом можете добавить их в проект.
4. Построение прототипа и проверка гипотезы
Все загруженные в проект данные становятся доступны пользователю для анализа и построения прототипа. Информация отображается в удобном специализированном интерфейсе, где пользователь может объединить данные, скомбинировать их между собой, без каких-либо навыков программирования применить различные правила преобразования, выявить и устранить проблемы с качеством данных, постепенно шаг за шагом приближаясь целевому состоянию. В этот момент система всячески помогает пользователю, показывая статистические данные, анализируя возможные варианты и выдавая пользователю наиболее удачные рекомендации. Например, при работе с комплексной строкой - адрес или назначение платежа – система проанализирует ее состав и предложит автоматически разбить на несколько полей. Таким образом, пользователь может самостоятельно провести первичный анализ и проверить основные гипотезы.
5. Использование результатов, передача на поддержку и развитие
Получив все необходимые данные и приведя их к необходимому виду, пользователь может сохранить результаты своей работы в виде витрины Hive – его коллеги или он сам смогут продолжить анализ с помощью какого-либо BI-инструмента или статистического пакета для построения моделей. Если полученный набор данных нужен не разово, а на постоянной основе, то пользователь может просто опубликовать его в виде автоматически генерируемого интеграционного процесса Informatica. Система самостоятельно воспроизведет все действия пользователя и построит повторяемый процесс, который может быть передан в IT для постановки на поддержку, регулярную загрузку и развитие. В таком виде процесс передачи задачи от пользователя к IT будет произведен гораздо быстрее и продуктивнее, так как всю логику пользователя система переведет на язык IT автоматически.
Таким образом, Intelligent Data Lake обеспечивает быстрый поиск нужных данных, где бы они не находились (концепция «магазина» данных), прозрачное понимание, что это за данные и подходят ли они для решаемой задачи, быстрое построение прототипа для дальнейшего анализа. Благодаря этому IDL позволяет бизнесу гораздо более быстро и эффективно работать с данными и извлекать из них больше ценности для компании, предоставляя информацию широкому кругу пользователей. Бизнес-пользователи, аналитики, эксперты Data Science получают возможности быстрого и непрерывного тестирования своих гипотез для обеспечения роста бизнеса с минимумом затрат. Благодаря использованию Informatica IDL все эти пользователи не теряют свое время на поиске и каких-то подготовительных работах.
Другими словами, IDL не просто дает уникальные возможности по работе с данными вашим аналитикам, но и позволяет всему бизнесу в целом принимать решения намного быстрее, нежели раньше.
О DIS Group:
Компания DIS Group (www.dis-group.ru) представляет в России и странах СНГ решения по управлению данными уже более 12 лет и обладает лучшей экспертизой по внедрению решений Infromatica, опытом в области реализации проектов, консалтинга, технической поддержки и обучения. Заказчики DIS Group – крупнейшие компании России и СНГ различных отраслей: Сбербанк России, Альфа-Банк, Банк ВТБ, Райффайзен Банк, Банк Открытие, Народный банк Казахстана, Банк Тинькофф, ВымпелКом, TELE2, МегаФон, Северсталь, Тандер (торговая сеть «Магнит»), Роснефть, авиакомпании Аэрофлот и S7 Airlines.
Об Informatica:
Informatica является лидирующим мировым поставщиком решений по управлению данными. Компания полностью сфокусирована на работе с данными, поскольку данные управляют современным миром. Informatica предоставляет решения для обработки «больших», «облачных» и любых других данных в любом режиме. Более 7000 организаций используют эти решения для развития своего бизнеса.