Clasificación de Datos – Cómo Categorizarla, Dónde Almacenarla
Anteriormente, discutimos los requisitos de un programa maduro de clasificación de datos. En este artículo, vamos a revisar la mecánica administrativa de dicho programa. La clasificación de datos, recordarás, generalmente incluye un sistema de tres o cuatro capas similar al siguiente:
Recomiendo que las organizaciones nuevas en la clasificación de datos comiencen con el sistema de tres niveles, ya que estos niveles y sus acciones y controles correspondientes pueden ser difíciles de definir. El sistema de tres niveles considera todos los datos internos como confidenciales.
La prioridad, por lo tanto, es crear los procesos y procedimientos necesarios para apoyar los datos confidenciales. Puedes identificar la cantidad limitada de datos Públicos y Altamente Confidenciales más adelante a través de entrevistas y descubrimientos técnicos. Luego, puedes comunicar claramente tus objetivos en toda la empresa, incluyendo ubicaciones, procesos y aplicaciones.
Hoy, vamos a cubrir cómo se almacenan normalmente los datos en las organizaciones y dónde. Estas estructuras van a tener un gran impacto en el alcance, las operaciones y las decisiones técnicas de tu programa. Como cada organización tiene diferentes procesos de negocio y tecnologías, cada proyecto de clasificación de datos también será diferente.
Datos Estructurados vs. No Estructurados
La categorización de datos estructurados y no estructurados es el componente de clasificación de datos más fácil de explicar, pero el más difícil de gestionar. Los datos estructurados son cualquier dato dentro de una aplicación, generalmente una base de datos. Los propietarios de aplicaciones de tu organización, los administradores de bases de datos o el proveedor de la aplicación pueden explicar los diferentes tipos de datos almacenados en la aplicación.
Las organizaciones se asombran de la cantidad de datos y tipos de datos que se almacenan en las aplicaciones. Recursos Humanos, sistemas de gestión de relaciones con clientes (CMR), plataformas de planificación de recursos empresariales (ERP), plataformas de cuentas y soluciones de fusiones y adquisiciones (M&A) son solo algunas aplicaciones que históricamente contienen enormes reservas de datos estructurados. Muchos de estos sistemas están regulados (por ejemplo, Recursos Humanos, ERP) y, por lo tanto, los datos deben mantenerse o retenerse durante un tiempo específico, y en algunos casos, indefinidamente.
“Las capacidades de seguridad y gobernanza de las distribuciones de software individuales no siempre cumplen con todos los requisitos para el control de acceso granular y los requisitos de gobernanza emergentes.” – Doug Henschen
Los datos no estructurados son datos que no se almacenan en una aplicación. Las hojas de cálculo de Excel, las presentaciones de PowerPoint y los documentos de Word son ejemplos clásicos de datos no estructurados. Los datos no estructurados a menudo se encuentran en informes generados a partir de sistemas de datos estructurados.
Los datos no estructurados suelen ser diez veces más grandes en volumen que los datos estructurados. La razón de esto es simple: Guardar copias de archivos importantes en varios lugares hace que los empleados se sientan seguros. El correo electrónico históricamente representa la mayor cantidad de datos no estructurados en una organización.
Piénsalo: Los empleados envían por correo electrónico un documento importante o sensible para asegurarse de que todos tengan una copia y luego guardan el correo electrónico en un archivo PST o en una carpeta en su portátil. Podría haber cientos de copias de un solo archivo que contiene datos altamente sensibles ubicados en cientos de lugares a través de la red.
Enfoque Amenazante de los Lagos de Datos y Soluciones en la Nube
Una tendencia en los negocios hoy en día es buscar valor en todos los datos estructurados que las organizaciones almacenan. Industrias desde bienes raíces hasta gestión de residuos han descubierto valor oculto en los datos que están recopilando. Algunos pueden pensar que esta tendencia comenzó en la industria financiera, pero estarían equivocados.
El auge de los datos comenzó con el enfoque en análisis que Google y Facebook pioneros. Estas y organizaciones similares se dieron cuenta de que podían aumentar la rentabilidad y la fidelización de clientes si dirigían su publicidad a usuarios específicos.
Las direcciones IP, los tiempos de inicio de sesión, los puntos de permanencia y otros datos proporcionaron una visión única de sus usuarios que podían vender a un grupo más grande de anunciantes. Esa información también fue útil para otras organizaciones por una serie de otras razones. ¿Recuerdas Cambridge Analytica? Este nuevo valor que proporcionaron los datos fue posible gracias a los primeros lagos de datos de su tipo, aunque no se llamaban así en ese momento.
“La clave es que lo nuevo no tiene los beneficios que esperábamos de lo viejo.” – Merv Adrian
Los lagos de datos brindan a las organizaciones la oportunidad única de “volcar” datos de cualquier número de fuentes y formatos. Por lo general, no están gestionados y están abiertos a cualquier cuenta con acceso al lago. Independientemente del propósito del lago (marketing, información empresarial, archivo, etc.), las características de clasificación de datos son las mismas. Primero, acepta todos los datos. Segundo, es una plataforma abierta por diseño. Tercero, la mayoría de estas soluciones están migrando o se están construyendo en la nube.
Almacén de Datos vs. Lago de Datos
Los almacenes de datos son más seguros que los lagos. Esto se debe a que los datos ingresados se limpian antes de entrar. Ver abajo:
Los almacenes de datos limpian los datos antes de entrar en la nube.
Un lago de datos, por otro lado, toma TODOS los datos sin el paso de transformación y reestructuración:
Un lago de datos, a diferencia de un almacén de datos, toma TODOS los datos, sin hacer preguntas.
No puedes permitirte pasar por alto los problemas de clasificación de datos que surgen al acumular todos estos datos, especialmente desde un punto de vista de cumplimiento normativo. Necesitas estar involucrado en el diseño del(los) lago(s) desde el principio.
Independientemente de cómo se construya el lago, la clasificación de datos debe ser una consideración en su diseño. Por ejemplo, un lago se está diseñando para fines de archivo. ¿Deberían incluirse datos Altamente Confidenciales? ¿Deberían los datos Altamente Confidenciales tener su propio lago, o deberían excluirse por completo?
Aplicar la clasificación ya sea al inicio de la inyección de datos, o al final cuando se exporta desde los Almacenes de Datos de Proceso, es tu mejor estrategia.
Saber qué sistemas están proporcionando datos al lago es importante. Cuando los datos se colocan en un lago, hay menos protecciones disponibles para los grupos de gobernanza (Ciber, Riesgo, Cumplimiento, etc.) en comparación con las bases de datos empresariales o los sistemas de bases de datos relacionales.
Con los sistemas tradicionales de gestión de bases de datos, el equipo de seguridad de la información podría manejar toda la seguridad de la red y las protecciones de control de acceso, pero hacer poco con los datos una vez que ingresan al sistema de gestión de bases de datos.
Las estructuras de lagos de datos, sin embargo, no vienen con todas las capacidades de gobernanza y políticas asociadas con un sistema tradicional de gestión de bases de datos, desde la integridad referencial básica hasta el acceso basado en roles y la separación de funciones.
Una forma de abordar la seguridad de los lagos de datos es pensar en ellos como un conducto con componentes aguas arriba, en el medio y aguas abajo, según Merv Adrian. Los vectores de amenaza asociados con cada etapa son algo diferentes y, por lo tanto, deben abordarse de manera diferente.
Los lagos de datos proporcionan un gran valor a la organización, pero requieren un modelo de gobernanza diferente para mantener los controles de clasificación.
Próximamente
En mi próximo artículo, reuniré todos los elementos que hemos discutido anteriormente con la Matriz de Controles de Gestión de Datos.