BI & Big Data


Гео и язык канала: не указан, не указан
Категория: не указана


Канал компании CoreWin. Бизнес-аналитика и Big Data: новости, тенденции и инструменты.

Связанные каналы

Гео и язык канала
не указан, не указан
Категория
не указана
Статистика
Фильтр публикаций


Репост из: DataRoot Labs
​​CEO и основатель DataRoot Labs Макс Фролов — ментор на Global Hack Weekend 2018!

DataRoot Labs — лаборатория с фокусом на исследованиях в области Artificial Intelligence и большим объемом данных. Лаборатория является одним из крупнейших исследовательских центров в Украине в своем сегменте. Макс Фролов — лектор на курсе «Data Science & Engineering» в DataRoot University. Возглавил рейтинг молодых предпринимателей до 25 лет "Новые имена" от медиа ресурса MC.Today.

#GHW 2018 — это экстремальный катализатор роста. 1000 участников под одной крышей и только 48 часов для создания продукта.

Команда-победитель поедет на WEB Summit в Лиссабон.

Даты: 23-25 ноября
Регистрация по ссылке: https://ghw.com.ua/


​​Data Discovery

Data Discovery – это процесс извлечения из данных полезной для BI информации по уже готовым шаблонам и критериям (людьми или искусственным интеллектом).

В отличии от Data Mining, Data Discovery работает с достаточно узкими параметрами поиска. Инструментами обнаружения данных служат карты тепла, сводные таблицы, круговые диаграммы, гистограммы и географические карты etc.

Если провести аналогию, Data Discovery помогает скульптору найти кусок мрамора, а Data Mining – кусок мрамора нужной формы и текстуры.

В этот вечер советуем почитать две статьи.

Первая описывает суть Data Discovery как явления, вторая сравнивает его с BI-подходом.


​​Как работать с ETL, если ты не программист?

Не так давно мы делали обзор каналов Reddit’а
(t.me/bi_bigdata/32), посвящённых BI и Big Data. Среди них был и канал /r/BusinessIntelligence/, где обнаружился любопытный топик – “Как работать с ETL, если я не программист?”

Для справки. ETL-системы – Extraction, Transform, Load:

⚙️ извлекают данные из нескольких внешних источников
⚙️ трансформируют их, приводя к пригодному для дальнейшей работы виду
⚙️ загружают в хранилища данных

Автор не знает языков программирования, но перед ним стоит задача извлечь и очистить данные. Что делать? (с)

Кроме очевидных советов из серии “Стань программистом”, мы нашли подробный анализ лучших ETL-средств на рынке для людей с разным уровнем подготовки и указанием, какие знания им потребуются.

Вывод в итоге следующий: да, без знаний языков программирования можно работать с ETL, но без знаний SQL – очень сложно.


​​Публично доступные данные

Данные повсеместны, но иногда бывает трудно увидеть нужную иголку в стоге сена. Многие компании полагают, что им придётся собирать данные, чтобы увидеть преимущества от аналитики данных, но всё намного проще.

Существуют сотни (если не тысячи) свободных наборов данных, готовых к использованию и анализу. Главное - знать, где их искать. Ниже приведено 2 публикации с источниками данных, их там больше 50. Эти данные польностью #публичные и доступны каждому.

Ну и, конечно же, стоит отметить портал, где доступны открытые данные 🇺🇦, ссылка на ресурс внизу.

Для читателей, который занимаются аналитикой профессионально (или только учатся), наличие источника, на котором можно тренировать свои навыки, - критически важно.


​​Сложности принятия современной культуры данных

Независимо размера компании, данные - важный для неё ресурс. 🔥, дающий толчок в развитии. Но как показывает практика, мало нанять команду инженеров и развернуть несколько IT-систем.

Современная #культура данных означает, что каждый сотрудник (или клиент) компании может воспользоваться накопленными компанией данными и получить позитивный результат.

К примеру, Domino’s Pizza в 2012 решила применить данную стратегию и начала собирать данные о потребителях и их заказах, что привело к тому уровню онлайн-сервиса, который мы видим сегодня.

Какие же препятствия возникают при попытках реализовать такую стратегию?

1️⃣ Нет инфраструктуры для данных. 🏠 начинается с фундамента. Данным нужны сервера и программные комплексы, защищённые и надёжные.

2️⃣ Страх сотрудников перед организационными изменениями. Важно подготовить коллектив к изменениям до внедрения, чтобы сотрудники понимали плюсы такой стратегии и не оставались с 👻 перемен один-на-один.

3️⃣ Разбросанные, повреждённые данные. Надо смириться с одной истиной. Для того, чтобы автоматизировать обработку сырья - это сырье необходимо привести в пригодную для оборудования форму. Данные - не исключение. Без интеллектуальной подготовки данных человеком 🥘 не сварить.

Чтобы позволить каждому человеку стать "человеком данных", компании должны создавать условия для интеграции между аналитическими и операционными системами. В конечном счёте, цель состоит в том, чтобы позволить большему количеству людей принимать более эффективные решения, основанные на данных.


​​Только коробка под кроватью. Только хардкор!

Удачных выходных!


​​Real Time Data 🌐

Одна из последних тенденций Big Data – отказ от центральной базы данных. Её с успехом заменяют фреймворки (как с открытым исходным кодом, так и коммерческие), которые позволяют управлять потоками данных и нагрузками на аппаратное обеспечение в режиме реального времени.

Пакетная обработка осталась в прошлом. Современные ETL-сценарии извлекают данные из плоских файлов (Excel, csv), преобразовывают их в полезную структуру (т.е. пригодную к дальнейшему использованию в SQL или BI) и загружают в базу данных или другую систему управления данными.
________________________
ETL может быть:

⚙️ развёрнут непосредственно на сервере и адаптирован для работы с инструментами а-ля Unix cron
⚙️ реализован как скрипт, выполняемый при появлении новых данных
⚙️ спроектирован сторонним разработчиком ПО (Informatica, Tableau, Talend, IBM, Microsoft etc)

Как только данные были «захвачены», их – чаще всего – нужно быстро проанализовать.

🔺Для игроков финансового рынка – это конкурентное преимущество.
🔺Для потребительских платформ – ускорение процесса (н-р, распознавание клиента) и персонализация рекламы.
🔺Для больниц, аэропортов, зон строительства, электростанций - вопрос жизни и смерти.

Здесь критически необходимо выявлять аномалии или инспектировать условия безопасности.
________________________
Потоки данных в режиме реального времени – относительно молодой, но весьма перспективный подход. В течение следующих нескольких лет организации с успешной его реализацией смогут на голову опередить конкурентов.


BI и обработка живой речи (Natural Language Processing)

Достижения в обработке живой речи изумляют. Теоретически NLP позволяет работать с BI-системой как с Google, отправляя запросы на обычном, "человеческом" языке и получая релеватные результаты.

Но развитие #NLP (Natural Language Processing) для #BI идёт достаточно медленно. Почему же?
________________________
▪️Определение границ предложений

Для того, чтобы NLP правильно определяла значение для строк и слов, компьютер должен знать, где начинается и заканчивается одна идея, одно предложение.

▪️Маркировка частей речи

После определения последовательности слов есть ещё одна задача, которую NLP должна решить. Это идентификация частей речи, содержащихся в строке.

▪️Распознавание контекста

Программе сложно определить, что означает «Вашингтон» - имя или штат. Распознавание контекста слова - сложная задача для програмиста.
________________________
И при этом NLP таит в себе неограниченные возможности
________________________
▫️Одним из применений NLP, уже существующим в BI, является перевод аналитических результатов на общий язык. Это делает информацию доступной для более широкой аудитории.

▫️Второе применение - использование NLP в качестве средства перевода общих предложений в используемые запросы в базы данных.
________________________

Детальнее: https://bit.ly/2O2NcuJ


​​Выбор BI

#Выбор инструмента бизнес-аналитики - это краеугольный проект для любой компании. То самое "всерьёз и надолго", определяющее, насколько эффективными станут решения компании в ближайшем будущем.

Ниже - краткие подсказки о том, на что стоит обратить внимание при выборе #BI.

Сначала задайтесь вопросом: "Какие задачи необходимо решить?" 1️⃣ шагом, который обеспечит успех BI, является определение болевых точек. Он требует постоянной связи с членами вашей компании, которые будут администрировать программное обеспечение и строить аналитику.

Далее спросите себя: "Кто будет пользоваться системой❓" Какие рабочие роли они заполняют?
Какова степень их технологических навыков?
Они обычно работают в офисе или путешествуют?
Используют ноутбук, смартфон или планшет?

Рекомендуем отдавать предпочтение тому разработчику и интегратору, который понимает ваш рынок, вашу специфику. Пышные речи не всегда предвестник результата.

Наконец, попросите интегратора пообщаться с существующим клиентом. Если решение хорошее, обычно коллеги по рынку (даже конкуренты) готовы поделиться 🗣 своими впечатлениями и опытом.

Важное примечание. Не продешевите. Бизнес-аналитика — это не то, на чём стоит экономить. Скупой платит дважды, поэтому выберите оптимальное решение. И если сейчас денег на него нет - отложите покупку.

Ниже - ссылка на скачивания отчёта о всех игроках BI-рынка от компании #BetterBuys. Он должен облегчить поиск вариантов.


​​Мобильный BI

Компании должны принимать решения всё быстрее. Системы мобильной бизнес-аналитики (BI) развёртываются как раз для того, чтобы идти в ногу с соперниками и получать преимущество.

Что такое #MobileBI?

По сути, это доступ и анализ информации с помощью мобильных устройств. С ростом использования мобильных устройств для работы - и не только на управленческих позициях - мобильный BI способен предоставить доступную бизнес-аналитику пользователю где и когда угодно.

Мобильный BI - не просто отображение содержимого системы, но и интерактивное взаимодействие с ним. Необходимо определить мобильную стратегию, чтобы отображать информацию на разных моделях и диагоналях.

В целом, мобильный BI обеспечивает большую доступность информации, скорость реакции и эффективную работу, а также улучшает внутренние коммуникации и сокращает длительность рабочих процессов.

Наконец, наличие мобильных приложений расширяет аудиторию и позволяет использовать BI даже новичкам.


​​BI и Google Analytics

Сегодня я хотел бы с вами поговорить про визуализацию данных из #GoogleAnalytics.
Здача не самая типичная. Представим, что глава компании захочет понять: сколько же он тратит на рекламу в интернете?

Придёт маркетолог с ворохом 📑 скачанных с Google Analytics, записей:
▪️ какой запроc
▪️ количество кликов
▪️ стоимость
▪️ прочее
Но так и не прояснит ситуацию. Что❓ Откуда ❓ Куда ❓

Чтобы понять❕ эффективность рекламы, её рентабельность и целесообразность, стоит обратиться к бизнес-аналитике.

В статье ниже подробный гайд для типичных запросов, агрегации данных и визуализация для Google Analytics. Очень рекомендую к прочтению, так как гайд затрагивает как общие вопросы для сбора информации по рекламе в интернете, так и детально рассказывает, как выжать все 💯 из Google Analytics.


​​Встроенная аналитика (Embeded BI)

Вместе с традиционным BI (аналитикой, разработанной для сотрудников) набирает рост встроенная аналитика, или #embeded. Это аналитика, которая встроена в портал 🎆 пользователя или в приложение (мобильное 📱 или для ПК 🖥). В основном такой подход полезен для разработчиков ПО, для компаний, которые работают в сегменте B2B (производство, дистрибуция) и для государственных органов. Одной из основных особенностей такого подхода является то, что платформа BI должна быть готова предоставить визуализацию без своего логотипа или white label 📦.

Получение выгоды 💵, или монетизация такого решения, происходит двумя способами (или совмещением этих способов):
▫️повышения конкурентоспособности своего продукта или услуг
▫️предоставления аналитики как дополнительной, платной услуги

Также BI позволит не только создать аналитику для клиентов, но и дать white label инструмент составления BI-отчётов 📊 на базе данных, которые хранятся на портале или в приложении.

Почему стоит выбрать встроенную готовую платформу?

Конечно, появится вопрос: разработка отчётов своими силами или запуск готовой платформы? Несколько аргументов "за" готовую платформу аналитику:

▪️Гарантия качества
▪️Быстрый запуск
▪️Простой запуск
▪️Готовая совместимость
▪️Первоначальные инвестиции ниже
▪️Нет необходимости нанимать и поддерживать команду разработчиков

Конечно, не стоит запускать такой проект, не просчитав расчётную прибыльность 📈, возврат инвестиций. Как правило, после того, как возник интерес, возникают и вопросы, на которые ответа нет. Лучшими шагами будет:

1️⃣ определить самых надежных и инновационных клиентов, выбрать тестовую группу
2️⃣ провести опрос тестовой группы, насколько это может быть полезно, и собрать пожелания для аналитики
3️⃣ запустить на пробный период такую аналитику и собрать отзывы

В итоге вы получите понимание того, насколько вопрос актуален ☝🏼 для ваших клиентов. Можно ли сегментировать пользователей 👨‍👨‍👦‍👦 внутри клиентов и исходя из этого определится со способом монетизации 💰.

С пониманием уровня потребности, портрета пользователя и потенциальной прибыли у вас появится почва, на базе которой вы сможете принять решение: нужна ли вашим клиентам встроенная аналитика.


​​Reddit: сообщества BI

Сегодня я Вам расскажу, чего ещё можно почитать про #BI и #BigData, постоянно держа руку на пульсе. Например, у нас Вы можете почерпнуть самые интересные статьи за неделю, но как же обсуждение и просто проблемы специалистов, не описанных журналистами или в личных блогах? А как же почитать критику других людей? Или просто посмотреть с какими вопросами и проблемами сталкиваются BI специалисты по всему миру?
И вот что я Вам рекомендую - #Reddit. Кто-то из Вас вовсе не знаком с ним, кто-то знает, как платформу для мемасиков аля Пикабу, но не стоит забывать, что это портал, разделённый по интересам с многомиллионной аудиторией. То есть помимо смешных картинок и видео в нём можно найти любой профессиональный сабреддит (так тут называются разделы по тематике), где найти новости, почитать обсуждения и даже принять участий в жарких спорах в коментариях. Более того удобно сформировать интересную для себя ленту новостей и обсуждений.

Давайте я посоветую Вам сабреддиты 🔊 для человека, работающего или интересующегося BI 📊, чтобы не теряться в огромном мире информации.

▪️/r/BusinessIntelligence/- общий сабреддит по BI, который сразу встречает нас проблемами и вопросами BI-специалистов.
▪️/r/bigdata/ - этот сабреддит радует нас не только вопросами, но и множеством обучающих видео по теме.
▪️/r/tableau/ - вопросы, обсуждения, новые визуализации и советы по платформе Tableau.
▪️/r/dataisbeautiful/ - отличное место для того, чтобы найти новые идеи и посмотреть, как другие специалисты делают “красивую” визуализацию.
▪️/r/dataisugly - веселиться тоже нужно. Очень хорошо разбавит ленту профессиональным юмором и “вырви-глаз” визуализациями, чтобы никогда так не делать :)


​​Данные никогда не спят

Потенциал Big Data только растёт. Используя все преимущества, компании должны включать аналитику в свое стратегическое видение и использовать её для принятия более быстрых решений.

Отчёт Глобального института McKinsey (MGI), "Эра аналитики: конкуренция в мире, управляемом данными", показывает, что спектр приложений и возможностей вырос и будет расширяться. Учитывая скорость появления новых технологий, теперь вопрос для компаний заключается в том, как интегрировать новые возможности в свои операции и стратегии. Как позиционировать себя в мире, где аналитика может продвигать целые отрасли.

Ведущие компании используют возможности аналитики не только для улучшения операционной деятельности, но и для запуска совершенно новых бизнес-моделей. Многие пытаются получить реальную ценность от аналитики, но для этого надо пройти несколько этапов.

1️⃣ Первой задачей является включение данных и аналитики в основное стратегическое видение.

2️⃣ Следующим шагом будет разработка правильных бизнес-процессов и эффективное использование как талантов сотрудников, так и технологий.

Недостаточно просто наложить мощные технологические системы поверх существующих бизнес-операций. Все аспекты трансформации должны объединиться, чтобы реализовать весь потенциал данных и аналитики.


​​Несколько фактов о восприятии

Эти факты были обнаружены несколькими исследованиями, хотя все они базируются на законе Ствинеса, а именно: зависимость силы ощущения от интенсивности раздражителя описывается степенной функцией.

- когда объект окружен большими объектами, он и сам кажется больше, и наоборот
- чем ближе линии, тем меньшей кажется разница их длины
- человек пытается найти симметрию во всем
- аннотация может кардинально изменить восприятие
- столбиковая диаграмма лучшая для сравнения величин
- круговая диаграмма - лучший инструмент для оценки пропорций
- люди читают круговую диаграмму по-разному: определяют площадь зоны, длину окружности и угол зоны
- линейная диаграмма подчёркивает тренд
- между столбцами в столбиковой диаграмме человек подсознательно рисует линию и пытается определить тренд
- 3D не даёт лучшего восприятия, но требует больше ресурсов для отображения
- размер, цвет точки, уровень рассеивания влияет на восприятия диаграммы рассеивания
- оттенки одного цвета сливаются
- те, кто склонны к контролю, лучше воспринимают контейнеры
- интерактивность и анимация улучшает восприятие

Восприятие - одна из успешных областей науки, так что нас ещё ждут новые открытия.


​​Устранение "тёмных" данных

Один из подходов к решению проблемы Big Data - это минимизация хранимых данных. А именно "тёмных" данных. Это данные, которые хранятся, но никем не используются, подобно мусору. Так что компании пытаются хранить только полезные им данные, отметая всё ненужное.

Чтобы применить такую же политику, необходимо пройти несколько шагов.

▪️Определить, какие данные стоит собирать.
▪️Внедрить проверку данных, которые вводят пользователи в систему.
▪️Внедрить прогресивное управление данными с прогресивными протоколами работы с базами данных.
▪️Определите правила удаления ненужных данных. И начать удалять.

Такой подход не только снизит нагрузку на вычислительные мощности и на базы данных, но и может выстроить культуру работы с данными по всему предприятию.


​​Особенности восприятия дэшборда

После этапов подключения данных, их подготовки и анализа наступает этап презентации результатов. Сейчас стандартом в мире бизнес-аналитики является метод презентации типа дэшборд. Исследователи Политеха им. Петра Великого (Россия), университета Восточной Финляндии и команда Tableau провели ряд исследований, дабы определить, какими правилами руководствуется мозг, обрабатывая дэшборд. И как это может помочь проектировать более эффективные дэшборды.

Были использованы методики отслеживание движения глаз, скорость и точность ответов на тестовые вопросы.

Выделены следующие психико-физиологические закономерности:

1. Большинство людей читают дэшборд слева направо и сверху вниз (как книгу или газету).
2. Количество элементов влияет на время фиксации внимания на каждом из элементов.
3. Время фиксации можно коррелировать стимулами.
4. В среденем на дэшборд фиксируется 10 реакций на стимулы.
5. Тип графика не влияет на время фиксации внимания.

Подтверждены следующие механизмы привлечения внимания через стимулы:

1. Большие итоговые цифры.
2. Повторяющиеся графические элементы.
3. Наличие форм, схожих с человеком (емоджи, лица).
4. Выделение контрастом.

Поэтому перед дизайном дэшборда определите, на какие вопросы он должен ответить. И уже в ходе дизайна расставляйте стимулы так, чтобы ответы на эти вопросы были очевидными.


​​Big Data и Time Management

Без тайм-менеджмента уже не обходится ни одна современная компания. Сбор информации о времени сотрудников и её аналитика может помочь:

▫️контролировать сроки выполнения задач
▫️установить их приоритетность
▫️увидеть вовлечённость сотрудников
▫️найти слабые моменты в планировании

С другой стороны, факт наблюдения и сбора данных о деятельности персонала может значительно понизить его лояльность и мотивацию. Поэтому, чтобы не давить на сотрудников, рекомендуется:

▪️ определить цель внедрения
▪️ разработать детальный и прозрачный план внедрения
▪️ не скрывать факт сбора информации
▪️ дать сотрудникам свободу выбора
▪️ определить, какую информацию каждый из них может запретить собирать
▪️наладить обратную связь от сотрудников и реагировать на неё
▪️ помнить, что стандартизированные политики - не лучший выход

Отдайте предпочтение индивидуальному подходу.


​​Изживут ли себя централизованные базы данных?

API-технология стала надёжным инструментом для интеграции IT-систем. Она же может существенно облегчить жизнь при работе c Big Data. Из очевидных плюсов:

- API позволяет сэкономить: не нужны хранилища данных и дата-инженеры
- данные поступают в режиме реального времени, т.е. анализ становится более точечным

Но внедрить такой подход непросто. У данных должна быть аннотация или маркер, по которому аналитик их корректно распознает. Да и организовать доступ (например, через шлюз) к таким данным - задача не из простых.

Тем не менее, именно благодаря API мы стоим на пороге дата-революции и конца эры централизированных баз данных.


​​Big Data: мифы и факты

Big Data, как и любая отрасль знаний, пропитана большим количеством мифов.

1. Big Data вездесущ. По статистике Gartner, около 73% компаний так или иначе смотрят в сторону Big Data, но только 13% внедрили реальные решения.

2. Big Data - это большие объёмы данных. Утверждение верно только частично. На самом деле, Big Data формируют 5 составляющих: объём данных, скорость получения новых данных, разнообразие типов данных, ценность данных, достоверность данных.

3. С помощью Big Data можно спрогнозировать всё. Это невозможно в принципе.

4. Big Data - это дорого и только для крупных игроков. Реально же многие продукты подходят и для маленьких фирм.

5. Big Data заменят Data Warehouse. Нет, эти инструменты решают разные задачи.

6. Big Data не нуждается в интеграции. Всё зависит от проекта, иногда как раз наоборот.

7. Все данные ценны. Это не так, в ваших хранилищах, скорее всего, полно "мусора".

8. Big Data только для аналитиков. Благодаря современными технологиям и бизнес-пользователи могут изучать большие массивы данных.

9. Hadoop заменит in-memory. Нет, эти инструменты, как правило, используют вместе.

Показано 20 последних публикаций.

196

подписчиков
Статистика канала