• Inicio
  • Novedades
  • Academia SAP
  • FAQ
  • Blog
  • Contacto
S4PCADEMY_Logo
  • Inicio
  • Novedades
  • Academia SAP
  • FAQ
  • Blog
  • Contacto
Twitter Linkedin Instagram

S4PCADEMY_Logo
  • Inicio
  • Novedades
  • Academia SAP
  • FAQ
  • Blog
  • Contacto
Twitter Linkedin Instagram
#SAP MaxAttention  ·  Databricks  ·  Technical Articles

SAP Data Warehouse Cloud & Databricks: análisis unificado con la plataforma Lakehouse

By s4pcademy 


Con el surgimiento de Lakehouse que combina almacenes de datos y lagos de datos, ha habido una tendencia entre los clientes de SAP que exploran la plataforma de análisis unificado o, por ejemplo, entornos unificados que abordan diferentes perspectivas de gestión de datos, ciclo de vida de datos y análisis, desarrollo y, finalmente, implementaciones de análisis basados ​​en en diversas fuentes y formatos de datos. Desde la perspectiva de SAP, está claro que posicionaremos SAP Business Technology Platform para abordar la plataforma de análisis unificado proporcionando herramientas para integraciones, orquestación de datos, gestión de datos, desarrollo e implementaciones, generación de informes con

  • Nube de almacén de datos de SAP
  • Nube de análisis de SAP
  • SAP HANA Cloud y SAP HANA Cloud Data Lake
  • Inteligencia de datos de SAP

Hemos abordado esto en nuestro Taller de innovación BTP este verano con estrategia y ejecuciones para una historia de análisis de datos de extremo a extremo. Nuestra sesión se centra en escenarios de clientes en los que los datos externos se procesan en la plataforma Databricks Lakehouse y se replican en SAP HANA Cloud/Data Lake o SAP Data Warehouse Cloud utilizando Databricks Compute. Los mismos datos procesados ​​también se pueden federar en SAP DWC utilizando un adaptador JDBC genérico. Luego podemos integrar los datos con las soluciones de SAP posicionando SAP Data Warehouse Cloud como plataforma de análisis unificado. Puede consultar el Diapositivas del día 2 y grabación de este blog donde Unnati Hasija y yo hemos impartido estas sesiones.

En esta serie de blogs, me gustaría abordar algunas de las capacidades clave de la plataforma Databricks delta lake y cómo procesamos los datos, digamos

  • La transmisión de datos se ingiere continuamente en Cloud Storage, por ejemplo, Google Cloud Storage o Amazon S3
  • Utilice las tablas de Delta Live para crear canalizaciones de datos de alta calidad y almacenar los datos en Databricks SQL: almacén de datos sin servidor
  • Federe los datos de Databricks SQL a SAP DWC.

En este blog, comenzaré con la federación de datos de Databricks SQL. Para los dos primeros puntos, todavía estoy trabajando en el contenido del video. Aquí se supone que los datos ya se procesaron desde Delta Lake y se almacenaron como tablas en Databricks SQL.

requisitos previos

  1. Tiene acceso a SAP DWC con autorización para crear un nuevo agente de aprovisionamiento de datos
  2. Acceda a la máquina virtual o al sistema local donde instale el agente de aprovisionamiento de datos y configúrelo con los detalles del paso 1.
  3. Tiene una cuenta de prueba o Premium de databricks con cómputos para todos los propósitos y acceso a espacios de trabajo.
  4. Has descargado el controlador JDBC del sitio de Databricks.

Clúster de ladrillos de datos y acceso SQL

Puede obtener acceso a Databricks ya sea por

  1. Registrarse para la prueba gratuita de 14 días desde su sitio
  2. O regístrese desde el mercado de hiperescaladores. Tengo mi cuenta registrada en el mercado de AWS

Una vez que inicie sesión en su cuenta, verá el entorno unificado para diferentes espacios de trabajo

  • Ciencia e ingeniería de datos
  • Aprendizaje automático
  • sql

Seleccionemos el espacio de trabajo «Ciencia e ingeniería de datos» y seleccionemos el cálculo que ha estado utilizando para la transformación de datos. Solo para tener en cuenta que cuando construimos canalizaciones de tablas de Delta Live, utiliza su propio cálculo para ejecutar canalizaciones. Discutiremos sobre eso en los blogs posteriores.

Seleccione el cómputo multipropósito para obtener información adicional. Si este es su primer inicio de sesión, entonces necesita crear una computación multipropósito para ejecutar sus scripts o canalizaciones.

Una vez que seleccione el cálculo, navegue hasta las «Opciones avanzadas» para obtener los detalles de la conexión JDBC

Encontrará la conexión JDBC necesaria en la columna URL de JDBC. Necesitamos modificarlo un poco antes de usarlo para la conectividad JDBC genérica con SAP Data Warehouse Cloud (SAP DWC). Además, nos conectaremos utilizando tokens de acceso personal y no credenciales de usuario.

Para generar el token de acceso personal, puede generar desde la configuración del usuario y guardar el token para su uso posterior.

Aquí está la URL final de JDBC que usaré en la conexión de SAP DWC.

jdbc:databricks://dbc-xxxxxxxxxxx.cloud.databricks.com:443/default;IgnoreTransactions=1;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/XXXXXXXXXXXXXXXXX268/XX-XX-56fird2a;AuthMech=3;UID=token;PWD=<Personal Access Token>

Aquí está la información adicional relacionada con la URL de JDBC

  1. jdbc:ladrillos de datos://dbc-xxxxxxxxxxx.cloud.databricks.com:443: este es el nombre de host de su servidor de su cuenta de Databricks.
  2. IgnorarTransacciones=1 – Este es el parámetro opcional que debe agregarse para ignorar las operaciones relacionadas con transacciones. Sin esto, la validación de su conexión DWC fallará.
  3. httpPath: la URL de recursos informáticos de sus Databricks
  4. AuthMech: podemos usar 3 u 11. 3 es para credenciales de usuario y 11 es para OAuth 2.0. Estamos usando 3 en este caso.
  5. Para las credenciales de usuario, estamos usando tokens como se mencionó anteriormente

Proporcione la siguiente clase mientras se conecta desde SAP DWC.

com.databricks.client.jdbc.Driver

Ahora podemos navegar a Databricks SQL para ver si tenemos los esquemas y tablas necesarios para acceder. Puede ver los esquemas y también las tablas que creé bajo el esquema «dltcheck». En la demostración de la federación de SAP DWC, usaremos la tabla bucketraw1.

Para registrar el controlador JDBC en su máquina virtual o sistema local, descárguelo de Databricks sitio y use el último controlador 2.6.32

Instrucciones de instalación del agente de aprovisionamiento de datos (agente DP)

Para la instalación del agente DP en una máquina virtual o en un sistema local, puede consultar el estándar documento SAP o sigue esto Blog

Solo agregaré la información sobre las propiedades que deben ajustarse. De todos modos, creará un agente local desde DWC como se muestra a continuación y utilizará esta información para configurar el agente DP en su sistema VM/local.

Una vez configurado, navegue a la carpeta /camello/lib y copie el archivo jar que se descarga de Ladrillos de datos sitio. Descargará un archivo zip. Extraiga el archivo jar y cópielo en esta carpeta.

Y navegue a la carpeta /camello y ajuste las propiedades de configfile-jdbc.properties

Cambia el valor a delimident=MARCA INVERTIDA y guardarlo

Una vez hecho esto, reinicie el agente de aprovisionamiento de datos [DP Agent] y lo verá funcionando en SAP DWC(System-Configuration->Data Integration) . Habilite CamelJdbcAdapter.

Ahora deberíamos poder conectarnos a Databricks SQL desde DWC.

Establecimiento de conexión desde SAP Data Warehouse Cloud

Inicie sesión en su URL de SAP DWC, navegue hasta el espacio para crear una nueva conexión para Databricks. Seleccione «Crear conexión» y elija JDBC genérico

Proporcione cualquier nombre comercial y los siguientes detalles

Clase : com.databricks.client.jdbc.Driver

URL de JDBC : jdbc:databricks://. cloud.databricks.com>:443/predeterminado;IgnorarTransacciones=1;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/XXXXXXXXXXXXXXXXX268/XX-XX-56fird2a;AuthMech=3;UID=token;PWD=.

Copie la URL de JDBC como tal desde las opciones avanzadas de Databricks Cluster y simplemente agregue el parámetro «IgnoreTransactions=1».

Luego agregue sus credenciales de cuenta de usuario de Databricks o credenciales de token con

Usuario y contraseña como las credenciales que usó para iniciar sesión en Databricks (su ID de correo electrónico y contraseña)

O

Usuario y contraseña como token y contraseña (nombre de usuario: token y contraseña: token real). Seleccione el agente de aprovisionamiento de datos que acaba de activar.

Una vez que guarde la conexión, puede «Validar la conexión» para asegurarse de que funciona.

Debería ver el mensaje de que la conexión es válida. Las tablas remotas están habilitadas.

Creación de modelos analíticos basados ​​en Databricks SQL federados

Para asegurarnos de que tenemos acceso a los datos, usemos Data Builder para construir un modelo analítico que podría consumirse en SAP Analytics Cloud. Navegue a Data Builder y cree una nueva vista gráfica

Vaya a Orígenes->Conexiones->Databricks (su nombre comercial de conexión)->(su nombre de esquema de Databricks)->.

En mi caso, verá la lista de tablas en dltschema y estas son las mismas tablas que se mostraron en Databricks SQL

Seleccione los datos con los que desea construir el modelo analítico. En mi caso, es bucketraw1, agregó algunas columnas calculadas, agregó los datos necesarios y expuso las columnas relevantes como modelo analítico «Casos confirmados” . Y la vista previa de datos del modelo también muestra los registros correspondientes.

Ahora este modelo podría consumirse en SAP Analytics Cloud para informes.

Solución de problemas de errores para la validación de la conexión

Si no ve la conexión validada, entonces hay dos opciones para solucionar el problema. Podemos usar los archivos de registro genéricos del agente DP para identificar el problema o agregar los parámetros de registro en la URL de JDBC y recopilar esos errores específicos. Si tiene problemas de validación, agregue estos parámetros en la URL de jdbc.

Verifique esta URL ajustada con opciones de registro

jdbc:databricks://<youraccount>.cloud.databricks.com:443/default;LogLevel=5;LogPath=<foldername>;IgnoreTransactions=1;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<SQLPath>;AuthMech=3;UID=token;PWD=<token>

Nivel de registro: 5, lo que significa habilitar el inicio de sesión en el nivel DEBUG, que registra información detallada que es útil para depurar el conector.

Logpath: estará disponible en la siguiente ruta /usr/sap// en su máquina virtual o en el sistema Premise

Si ve algunos errores relacionados con entradas no coincidentes, ajuste las propiedades de camel jdbc como se menciona en las Instrucciones de instalación de DPAgent. Una vez que configuró «DELIMIDENTE» en «BACKTICK», el problema se resolvió.

2022-12-19 16:31:57,552 [ERROR] [f6053d30-7fcd-436f-bed8-bf4d1358847788523] DefaultErrorHandler | CamelLogger.log [] - Failed delivery for (MessageId: 2567788B8CF359D-0000000000000000 on ExchangeId: 2567788B8CF359D-0000000000000000). Exhausted after delivery attempt: 1 caught: java.sql.SQLException: [Databricks][DatabricksJDBCDriver](500051) ERROR processing query/statement. Error Code: 0, SQL state: org.apache.hive.service.cli.HiveSQLException: Error running query: org.apache.spark.sql.catalyst.parser.ParseException: 
                                mismatched input '"FUNCTION_ALIAS_PREFIX_0"' expecting {<EOF>, ';'}(line 1, pos 33)
                                == SQL ==
                                SELECT SUM("confirmed_cases") AS "FUNCTION_ALIAS_PREFIX_0", SUM("deaths") AS "FUNCTION_ALIAS_PREFIX_1", "covidsummarygcs$VT"."county_name" FROM "default"."covidsummarygcs" "covidsummarygcs$VT" GROUP BY "covidsummarygcs$VT"."county_name"

Si ve la falla del enlace de comunicación, entonces el parámetro IgnoreTransactions no se ha establecido en su URL de JDBC.

Actualizaré los otros problemas que podría enfrentar y las resoluciones en este blog en las próximas semanas.

Hemos visto la forma en que los datos se pueden federar desde Databricks. Además, actualizaré los pasos sobre cómo realizar la carga masiva de datos de Databricks en SAP DWC o capturar cargas delta en los próximos blogs. Por favor, comparta sus comentarios. En caso de problemas de conexión, siéntase libre de comentar e intentaré ayudarlo.



Source link


AnálisisCloudconDataDatabricksLakehouseplataformaSAPunificadoWarehouse

Artículos relacionados


DSO (Direct Shipment Option)  ·  DSO Service Level  ·  Product Information  ·  SAP TM Parcel Shipment
Envío de paquetes SAP S4HANA (1909) TM
clinical trial supply management  ·  clinical trials supply chain  ·  Pharmaceutical Industry  ·  Product Information
Tendencias emergentes en ensayos clínicos: mejora de las operaciones clínicas con un software estándar industrial eficiente
Product Information
SAP S/4HANA Cloud 2302亮点前瞻:身份和访问管理(IAM),安全 | Blogs de SAP

Deja tu comentario Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

*

Transportar solo festivos cambiados/modificados/creados y calendarios festivos desde el desarrollo hasta el sistema de calidad y producción.
Previo
Propagación de usuarios técnicos: SAP BTP a S4 en las instalaciones
Siguiente

Madrid

Calle Eloy Gonzalo, 27
Madrid, Madrid.
Código Postal 28010

México

Paseo de la Reforma 26
Colonia Juárez,  Cuauhtémoc
Ciudad de México 06600

Costa Rica

Real Cariari
Autopista General Cañas, 
San José, SJ 40104

Perú

Av. Jorge Basadre 349
San Isidro
Lima, LIM 15073

Twitter Linkedin Instagram
Copyright 2022 | All Right Reserved.
Cookies Para que este sitio funcione adecuadamente, a veces instalamos en los dispositivos de los usuarios pequeños ficheros de datos, conocidos como cookies. La mayoría de los grandes sitios web también lo hacen.
Aceptar
Cambiar ajustes
Configuración de Cookie Box
Configuración de Cookie Box

Ajustes de privacidad

Decida qué cookies quiere permitir. Puede cambiar estos ajustes en cualquier momento. Sin embargo, esto puede hacer que algunas funciones dejen de estar disponibles. Para obtener información sobre eliminar las cookies, por favor consulte la función de ayuda de su navegador. Aprenda más sobre las cookies que usamos.

Con el deslizador, puede habilitar o deshabilitar los diferentes tipos de cookies:

  • Bloquear todas
  • Essentials
  • Funcionalidad
  • Análisis
  • Publicidad

Este sitio web hará:

Este sitio web no:

  • Esencial: recuerde su configuración de permiso de cookie
  • Esencial: Permitir cookies de sesión
  • Esencial: Reúna la información que ingresa en un formulario de contacto, boletín informativo y otros formularios en todas las páginas
  • Esencial: haga un seguimiento de lo que ingresa en un carrito de compras
  • Esencial: autentica que has iniciado sesión en tu cuenta de usuario
  • Esencial: recuerda la versión de idioma que seleccionaste
  • Functionality: Remember social media settings
  • Functionality: Remember selected region and country
  • Analytics: Keep track of your visited pages and interaction taken
  • Analytics: Keep track about your location and region based on your IP number
  • Analytics: Keep track of the time spent on each page
  • Analytics: Increase the data quality of the statistics functions
  • Advertising: Tailor information and advertising to your interests based on e.g. the content you have visited before. (Currently we do not use targeting or targeting cookies.
  • Advertising: Gather personally identifiable information such as name and location
  • Recuerde sus detalles de inicio de sesión
  • Esencial: recuerde su configuración de permiso de cookie
  • Esencial: Permitir cookies de sesión
  • Esencial: Reúna la información que ingresa en un formulario de contacto, boletín informativo y otros formularios en todas las páginas
  • Esencial: haga un seguimiento de lo que ingresa en un carrito de compras
  • Esencial: autentica que has iniciado sesión en tu cuenta de usuario
  • Esencial: recuerda la versión de idioma que seleccionaste
  • Functionality: Remember social media settings
  • Functionality: Remember selected region and country
  • Analytics: Keep track of your visited pages and interaction taken
  • Analytics: Keep track about your location and region based on your IP number
  • Analytics: Keep track of the time spent on each page
  • Analytics: Increase the data quality of the statistics functions
  • Advertising: Tailor information and advertising to your interests based on e.g. the content you have visited before. (Currently we do not use targeting or targeting cookies.
  • Advertising: Gather personally identifiable information such as name and location
Guardar y cerrar