En esta publicación de blog, aprenderá cómo realizar un escenario de almacenamiento en niveles de datos de frío a caliente en SAP Data Warehouse Cloud y el lago de datos de SAP HANA Cloud. En este escenario, los datos se cargarán desde un S3 Bucket en AWS en el lago de datos de SAP HANA Cloud mediante un flujo de datos en SAP Data Warehouse Cloud. Parte de estos datos se tomarán instantáneas y se almacenarán como datos activos en la memoria. El escenario Hot-To-Cold se tratará en otro blog.
La siguiente figura muestra el enfoque general para este escenario. Primero, crearemos una nueva tabla en el lago de datos de SAP HANA Cloud y una tabla virtual de SAP HANA Cloud que se asigna a esa tabla. La tabla virtual se usa en SAP Data Warehouse Cloud para insertar los datos de S3 en el lago de datos. Una vez que se insertan los datos, se crean cuatro vistas, una de las cuales contiene datos instantáneos en memoria. Luego, estas vistas serán consumidas por SAP Analytics Cloud para visualizar los datos y mostrar las diferencias de rendimiento en los tiempos de consulta. En este ejemplo, se utilizan nombres de espacio como «UK_SPACE», sin embargo, no dude en configurar los nombres de espacio de acuerdo con su convención de nomenclatura.
Los siguientes pasos lo guiarán a través del escenario para configurar un escenario de niveles de datos frío a caliente en SAP Data Warehouse Cloud:
1. Como primer paso, se debe configurar el lago de datos incorporado en la configuración de arrendatario flexible. Mira más a continuación Blog.
2. A continuación, se debe seleccionar un espacio que se conecte al lago de datos integrado. Esto se puede hacer en la Gestión del espacio en la pestaña Resumen. Aquí debe activarse la casilla de verificación «Usar este espacio para acceder al lago de datos». Tenga en cuenta que solo se puede asignar un espacio para acceder al lago de datos de SAP HANA Cloud.
3. Se debe crear un usuario de la base de datos para que pueda acceder a la base de datos subyacente de SAP HANA Cloud y crear las tablas. Esta opción también se puede encontrar en la Gestión de espacios. Cree un nuevo usuario de base de datos con privilegios de lectura y escritura y haga clic en «Guardar».
4. Una vez hecho esto, puede usar su herramienta SQL preferida para crear tablas en el lago de datos y acceder a esas tablas a través de las tablas virtuales de SAP HANA en su esquema SQL abierto. En este blog, se utilizará SAP HANA Database Explorer. Se puede abrir directamente desde la Gestión del espacio a través de «Open Database Explorer». En el explorador, haga clic en la instancia correspondiente e ingrese sus credenciales para conectarse a la base de datos.
5. SAP Data Warehouse Cloud ofrece dos procedimientos almacenados que puede usar para crear y acceder fácilmente a las tablas. Para crear tablas en el lago de datos, puede usar el procedimiento almacenado «DWC_GLOBAL». «DATA_LAKE_EXECUTE». Ahora cree una tabla en el lago de datos y asegúrese de que los tipos de datos de las columnas coincidan con los datos de S3 respectivos que va a utilizar.
CALL "DWC_GLOBAL"."DATA_LAKE_EXECUTE"('CREATE TABLE UK_SALES_ACQUISITION (
Location VARCHAR(40),
Product VARCHAR(40),
Time_ VARCHAR(8),
Sales_Unit DECIMAL(9,1),
Year VARCHAR(4)
)');
6. A continuación, puede crear una tabla virtual en su esquema SQL abierto que haga referencia a la tabla en el lago de datos. Esto se puede hacer con el siguiente procedimiento:
CALL "DWC_GLOBAL"."DATA_LAKE_CREATE_VIRTUAL_TABLE"
( VIRTUAL_TABLE_NAME => '0_UK_SALES_ACQUISITION',
DATA_LAKE_TABLE_NAME => 'UK_SALES_ACQUISITION'
);
7. Otro paso importante es otorgar privilegios al espacio en SAP Data Warehouse Cloud para insertar y actualizar la tabla virtual. De lo contrario, el flujo de datos no podría insertar datos en la tabla. El siguiente procedimiento otorgará al espacio todos los privilegios:
GRANT ALL PRIVILEGES on "AASPACE_W21_20220921#ONBOARDING"."0_UK_SALES_ACQUISITION"
to AASPACE_W21_20220921 with grant option
8. Ahora que se creó la tabla virtual, puede volver a SAP Data Warehouse Cloud a su espacio con acceso al lago de datos y crear un flujo de datos. Para elegir el depósito S3, vaya a «Fuentes» -> «Conexiones» y a su conexión S3. Elija su archivo de origen del depósito S3 y colóquelo en el lienzo del flujo de datos.
9. La tabla virtual creada previamente en el esquema SQl abierto también está disponible en el panel de fuentes. Arrástrelo y suéltelo en el lienzo del flujo de datos y haga clic en importar e implementar para que se pueda utilizar como un artefacto nativo de SAP Data Warehouse Cloud.
También asegúrese de que esté conectado a los datos S3 de origen. Se inserta un nodo de proyección en el flujo de datos para filtrar y eliminar columnas que no son necesarias. En este ejemplo, se conservan la ubicación, la hora, el producto y la unidad de ventas de KPI. Además, se crea una columna calculada Año para que sea más fácil filtrar en diferentes períodos de tiempo.
Asegúrese de que la tabla esté configurada como la tabla de destino y que todas las columnas estén asignadas. Al final, el flujo de datos debería verse así:
10. Ahora puede guardar e implementar el flujo de datos.
11. Una vez terminado, se puede iniciar el flujo de datos. Ejecute el flujo de datos y revise el estado en el Monitor de integración de datos. El Monitor de integración de datos proporciona una buena visión general de todas las ejecuciones de flujo de datos. Aquí puede encontrar información como el estado de la última ejecución, la frecuencia, la duración, las marcas de tiempo de inicio y finalización y si está configurado para las próximas ejecuciones programadas. En Record Count, puede realizar un seguimiento de la cantidad de datos que ya se han transferido al destino.
12. Después de que el estado del flujo de datos cambie a completado y todos los datos se transfieran al lago de datos, comparta la tabla en UK_SPACE.
13. El siguiente paso es cambiar a UK_SPACE y crear una nueva vista basada en la tabla compartida. La tabla compartida se puede encontrar en Objetos compartidos. Como primera vista, queremos crear una vista instantánea para el año 2021 que contendrá alrededor de 50 millones de filas de datos. Para ello, se inserta un filtro Año = ‘2021’ en la columna Año. En las propiedades, configure ‘Conjunto de datos analíticos’ como un uso semántico, cambie el interruptor ‘Exponer para consumo’ y configure la Unidad de ventas como una medida. Guarde e implemente la vista y asígnele el nombre 2_UK_SALES_2021. Cuando se implemente la vista, desplácese hacia abajo en el panel de propiedades hasta el área de persistencia y cree una instantánea. Los detalles de la instantánea se pueden revisar en el Monitor de integración de datos (Ver Monitor de persistencia).
14. Crear vista para datos de 2020 (no persistente)
La segunda vista que queremos crear es una vista no persistente para el año 2020 que contendrá aprox. 53 millones de filas. Para hacer esto, siga los mismos pasos que antes, excepto que no se crea ninguna instantánea. El nombre de la vista se establece en 2_UK_SALES_2020.
15. Crear vista con la Unión de 2021 instantánea y datos virtuales de 2020
En tercer lugar, cree una vista para combinar los datos instantáneos de 2021 y los datos virtuales de 2020, que creamos en los pasos 13 y 14. La unión se puede crear arrastrando la segunda vista sobre la primera y eligiendo la opción de unión. Establezca las mismas propiedades que en las vistas creadas anteriormente. No se crea una instantánea. El nombre de la vista se establece en 3_UK_SALES_2020_2021.
16. Crear vista para combinar datos virtuales de 2020 y 2021
También queremos crear una vista para obtener datos de 2020 y 2021 directamente del lago de datos y comparar los tiempos de consulta con la vista 3_UK_SALES_2020_2021. Cree una vista y filtre en el año 2020 y 2021.
17. Consumo en SAP Analytics Cloud
A continuación, se crea una historia en SAP Analytics Cloud que carga los datos de SAP Data Warehouse Cloud a través de una conexión en vivo y los muestra en el lienzo. Si aún no ha creado una conexión en vivo, consulte esto documento.
Cree una nueva página de lienzo y haga clic en Agregar datos. Ahora elija SAP Data Warehouse Cloud como fuente de datos. Seleccione la conexión y elija el UK_SPACE respectivo. Primero, seleccione los datos de ventas de 2020. Agregue un gráfico para mostrar los datos de 2020.
A continuación, agregue los datos de ventas de 2021 similares al paso anterior y establezca la fuente de datos de los gráficos en 2021. Seleccione la medida Sales_Unit nuevamente para que el gráfico muestre datos. Tenga en cuenta que los datos se cargan mucho más rápido que antes porque esta vista se ha conservado en SAP Data Warehouse Cloud y reside en la memoria a diferencia de los datos de 2020, que se almacenan en el lago de datos.
También puede probar los tiempos de consulta para la vista de unión que combina datos del lago de datos con datos de instantáneas. En comparación con la vista en la que todos los datos residen en el lago de datos, esto es aproximadamente 1,5 veces más rápido. La siguiente figura muestra cómo fluyen los datos a través de SAP Data Warehouse Cloud a SAP Analytics Cloud y muestra las diferencias de tiempo de consulta.
Para resumir, este blog ha mostrado cómo llevar a cabo un escenario de niveles de datos frío a caliente en SAP Data Warehouse Cloud y el lago de datos HANA Cloud integrado. Fue mostrado que a insertar datos en el lago de datos a tabla de lago de datos y un SAP Tabla virtual HANA en el esquema SQL abierto necesita ser creado que luego se puede utilizar en el flujo de datos. Después varias vistas se construyeron encimaenmi del cual se tomó una instantánea y por lo tanto almacenado como datos ‘calientes’. Consumiendo las vistas en Nube de análisis de SAP dejó claro que consulta tiempos para los datos persistentes eran mucho más rápidos en comparación con los datos que residía en el lago de datos. Pero por supuesto, puede además ser beneficioso para almacenar los datos en el lago de datos, p.ej dependiendo de frecuencia de acceso a los datosvolumen y qué tan bien están estructurados estos datos. Especialmente en tiempos de cada vez mayor datos huella esto proporciona un gran oportunidad para utilice mejor los recursos existentes y optimice su costo total de propiedad.
Siéntete libre de revisar también esto Blog que proporciona información valiosa sobre SAP Data Warehouse Cloud y el lago de datos de SAP HANA. También gracias a Nicolás Gabelmann, philipp plazibat y Oliver Huth por su contribución a este blog.
Calle Eloy Gonzalo, 27
Madrid, Madrid.
Código Postal 28010
Paseo de la Reforma 26
Colonia Juárez, Cuauhtémoc
Ciudad de México 06600
Real Cariari
Autopista General Cañas,
San José, SJ 40104
Av. Jorge Basadre 349
San Isidro
Lima, LIM 15073