Большие данные большие новости Эти дни. Но большинство организаций просто собирают огромные массивы данных, оставляя им массивный репозиторий неструктурированных - или «темных» - данных, которые мало кому полезны.

Учитывая потенциальные преимущества больших данных, крайне важно найти лучшие способы сбора, хранения и анализа данных, чтобы максимально использовать его.

Истории большие успехи в данных вызвали значительные инвестиции в крупные инициативы в области данных. Это побудило многие организации собрать значительные объемы внешних и внутренних данных в так называемые "данные озер». Это репозитории, которые содержат данные в любом формате, будь то структурированные, например, базы данных или неструктурированные, например, электронные письма или аудио и видео.

В результате рост объема генерируемых, собранных и сохраненных данных продолжается с экспоненциальной скоростью.

Но согласно недавнему Исследование IBM, более 80% всех данных неактивны, неуправляемы, часто неструктурированы, не имеют значимых метаданных и даже неизвестны для организации. Ожидается, что доля этих темных данных достигнет 93% 2020.


графика подписки внутри себя


Например, можно ожидать, что данные, полученные от бортовых устройств транспортного средства, будут получать 350MB данных каждую секунду. Куда идут все эти данные и кто их использует?

Организации также могут генерировать значительные внутренние данные. Например, Недавнее исследование что компания с сотрудниками 1,500 имела около 2.5 миллионов электронных таблиц, каждый из которых использовался только людьми 12 в среднем.

Более того, есть свидетельства множества неструктурированных данных, таких как версии документов, примечания к проектам и электронные письма, которые остались за организационными процессами и впоследствии неактивны на серверах данных.

Используйте его или потеряйте

Уроки, извлеченные из исследований в области использования информационных систем, показали, что предположение о том, что «больше лучше», когда дело касается данных, является необоснованным.

Даже в традиционных ИТ-проектах, которые следуют тщательно продуманному анализу и разработке жизненных циклов, несоосность между воспринимаемой и фактической ценностью является печально известной проблемой, часто приводящей к плохой отдаче от инвестиций.

В больших проектах данных данные часто могут быть получены извне с небольшим знанием или отсутствием знаний о его схемах, качестве или ожидаемой полезности. Таким образом, риск внесения инвестиций, которые не будут доставляться, сильно возрос.

Старая пословица «использовать ее или потерять» отнюдь не устарела и обращает внимание на то, как мы используем большие данные. Организации могут хранить данные по целому ряду причин, в том числе правила хранения данных, но воспринимаемая будущая стоимость, как правило, является основной причиной.

Хотя хранение относительно дешево, учитывая объем ассимилируемых данных, обслуживание и потребление энергии центров данных не является тривиальным. Кроме того, существуют затраты и риски, связанные с безопасность таких неуправляемых данных.

Таким образом, определение цели имеет решающее значение для обеспечения того, чтобы большие инвестиции в данные были направлены на решение значимых проблем, а сбор данных и их хранение оправданы.

Подходы, такие как дизайн-мышления, который побуждает людей использовать творческое мышление, ориентированное на решение, оказывается очень успешным в разработке подлинной проблемы для больших данных.

Что такое дизайн мышления?

При надлежащем применении дизайнерское мышление может предоставить ученым-ученым возможность объединить желательность (потребность клиентов) и жизнеспособность (бизнес-ценность) с технологической осуществимостью и тем самым направлять их на разработку значимых решений.

Мусор, мусор

Когда разрыв между созданием данных и их использованием становится больше, это делает более вероятным снижение качества данных. Это означает, что организации придется приложить немало усилий для очистки старых данных, если они захотят использовать ее сегодня.

Согласно Главный научный сотрудник США DJ Patil:

Данные супер беспорядочны, а очистка данных всегда будет буквально 80% работы. Другими словами, это проблема.

Ранее в этом году группа лидеров глобальных идей из сообщества исследователей баз данных изложила большие проблемы в получении выгоды от больших данных, Главное сообщение заключалось в необходимости развивать способность «понимать, как качество этих данных влияет на качество понимания, которое мы получаем от него».

Золотой принцип «мусора в мусоре» по-прежнему справедлив в контексте больших данных. Без научно обоснованных знаний, которые обеспечивают способность эффективно оценивать основные качественные характеристики данных, существует значительный риск того, что организации и правительства будут аккумулировать большие объемы данные низкой плотности, или инвестирование в продукты с низкой доходностью инвестиций.

Кроме того, отсутствие знаний о базовых данных (распределения, семантика и другие нюансы) может привести к аналитические ловушки, где анализ данных может привести к ошибочным и, возможно, опасным выводам.

Исследование данных становится многообещающим подходом к расширению возможностей пользователей поисковыми возможностями для исследования качества данных и повышения осведомленности о недостатках данных с точки зрения их предполагаемого использования, и делать это до того, как они инвестируют в дорогостоящие задачи по очистке данных и сохранению данных.

Поиск просветления из потопа данных будет потреблять энергию и инвестиции общества, ориентированного на данные, в обозримом будущем. В то время как в масштабе данных имеется огромная сила, когда они остаются без присмотра, они будут продвигать организации в пропасть темных данных.

Все это подчеркивает растущую потребность в хорошо подготовленных ученых-данных, которые могут сформулировать обоснованную деловую, научную или социальную цель и привести ее в соответствие с технологическими усилиями по сбору, хранению, упорядочению и анализу данных.

Беседа

Об авторе

Shazia Sadiq, профессор, Data and Knowledge Engineering, Университет Квинсленда

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.

Книги по этой теме

at Внутренний рынок самовыражения и Amazon