
Las empresas que ejecutan SAP GTS 11 en una base de datos SAP HANA pueden utilizar SAP HANA Search en Sanctioned Party List Screening (SPL) además de la búsqueda GTS clásica y TREX. Sin embargo, con la introducción de SAP GTS, edición para SAP HANA, TREX ya no es una opción.
A medida que los usuarios de GTS se están pasando de TREX a SAP HANA Search, es fundamental comprender en qué se diferencia SAP HANA Search. Si aplica la misma configuración de parámetros que con TREX, GTS producirá un resultado diferente y, por lo tanto, puede plantear dudas sobre su fiabilidad. Entonces, para empezar, definitivamente no debe copiar la configuración de los parámetros directamente desde TREX.
SAP HANA Search en GTS se basa en gran medida en las capacidades de búsqueda en la base de datos de HANA y no en la lógica específica de GTS que se ejecuta en el servidor de aplicaciones. En consecuencia, SAP HANA Search no utiliza algunos de los parámetros que tradicionalmente define en SAP GTS, como, por ejemplo, los delimitadores. Los delimitadores separan una cadena de búsqueda en palabras separadas o «tokens». Los delimitadores aseguran que una entrada de socio comercial como «Erika Mustermann» se maneje como dos términos de búsqueda diferentes («Erika» y «Mustermann») y no como un término de búsqueda («Erika Mustermann»). En este caso, el sistema ve el «espacio» como un delimitador. En lugar de parámetros específicos de GTS, SAP HANA Search se basa en el manejo de delimitadores internos en SAP HANA. Sin embargo, incluso aquí, puede cambiar los delimitadores predeterminados que usa HANA Search cambiando el índice de texto completo de las tablas SPL.
Los delimitadores de búsqueda estándar de SAP HANA son \/;,.:-_()[]<>!?*@+{}=”&
Tenga en cuenta que todos los caracteres se reemplazan por caracteres en minúsculas sin signos diacríticos antes de que se realice la comparación. Esto se llama estandarización. Por lo tanto, es posible obtener una coincidencia del 100 % al comparar dos términos desiguales, porque el proceso de estandarización arrojó dos términos idénticos.
Los detalles sobre cómo SAP HANA Search estandariza las letras se pueden encontrar aquí:
https://help.sap.com/docs/SAP_HANA_PLATFORM/691cb949c1034198800afde3e5be6570/ce6c4480bb571014a44fdf7c12355a97.html
En la Búsqueda GTS clásica o TREX, la configuración de una longitud mínima de términos de comparación se define en el nivel de tipo de lista. Sin embargo, dado que la generación de términos de búsqueda ya no es necesaria con SAP HANA Search, estos parámetros ya no tienen efecto cuando se utiliza SAP HANA Search. La longitud mínima «faltante» se compensa completamente a través de otras capacidades de búsqueda de SAP HANA, como palabras vacías y asignaciones de términos.
En algunos casos, la longitud mínima produce resultados no deseados, ya que una longitud mínima de 3 caracteres eliminaría por completo las coincidencias de SPL en socios comerciales como «KA PA SA». Un Socio Comercial como «BM HOLDING SA» quedaría reducido a «HOLDING», sin producir ningún resultado significativo. Las palabras cortas se manejan mejor con palabras vacías ya que las palabras cortas no se descuidan por completo.
SAP HANA Search maneja los textos de exclusión definidos (palabras) de manera diferente. TREX y GTS Search ignoran estas palabras por completo. En SAP HANA Search, las palabras de exclusión se denominan palabras vacías. Las palabras vacías son términos que son menos significativos para una búsqueda, por ejemplo, abreviaturas como Ltd, AG, SE, etc. La búsqueda se realiza como si las palabras vacías no existieran (ya sea en el socio comercial o en la entrada SPL). Sin embargo, las palabras vacías influyen en el núcleo borroso calculado. Por ejemplo, una entrada de SPL con palabras vacías idénticas al registro de Business Partner obtiene una puntuación más alta que una con palabras vacías diferentes o faltantes.
Las asignaciones de términos pueden ampliar la búsqueda agregando términos de búsqueda adicionales al registro del socio comercial. Las asignaciones de términos ampliarán el término de búsqueda y se agregarán sinónimos, hiperónimos e hipónimos. Por ejemplo, agregar el formulario completo «Aktiengesellschaft» cuando se usa la abreviatura AG o «Estados Unidos» cuando se usa «US». Cuando las palabras vacías y las asignaciones de términos se combinan en una sola consulta, las asignaciones de términos se aplican primero. Luego, las palabras vacías se aplican a todas las variaciones de términos de búsqueda creadas por las asignaciones de términos.
Para cada procedimiento de comparación, puede definir cuatro parámetros críticos. Los parámetros influyen en el resultado presentado posteriormente como aciertos de SPL. Los primeros tres parámetros, todos representados como porcentajes entre 0 y 100, son:
Parámetros de búsqueda
Exactitud
Porcentaje Tasa de palabras coincidentes
Puntuación mínima
Además, hay una selección de alternancia llamada “Búsqueda simétrica“.
SAP HANA Search representado como Rocket Science
La exactitud representa la primera etapa en el proceso de selección. Cada palabra (referida como tokens) en la cadena de búsqueda de Business Partner recibirá una puntuación de exactitud o una puntuación aproximada.
El algoritmo de búsqueda aproximada calcula una puntuación aproximada para cada comparación de cadenas. Cuanto mayor sea la puntuación, más similares serán las cadenas. Una puntuación de 1,0 significa que las cadenas son idénticas. Una puntuación de 0,0 significa que las cadenas no tienen nada en común.
Dado que la mayoría de las listas SPL contienen varias ortografías diferentes de los nombres de la misma persona u organización, es posible que pueda ejecutar con una puntuación de exactitud más alta que la que podrían indicar los resultados anteriores.
Los tokens (palabras) con una puntuación difusa por encima del nivel de exactitud definido se considerarán términos coincidentes en la siguiente etapa del proceso de selección.
En la segunda etapa, el sistema calcula la Tasa de Porcentaje de Coincidencia de Palabras. Si la búsqueda simétrica está desactivada, esta será la Tasa de porcentaje de palabras coincidentes de la propia cadena de búsqueda del socio comercial. Si su búsqueda simétrica está activada, el sistema usa tanto las palabras de socios comerciales como las palabras de la lista de partes sancionadas al calcular la tasa de porcentaje coincidente. Esto producirá dos resultados y el sistema elegirá el que tenga la tasa más alta. Por lo tanto, encendido o apagado producirá resultados diferentes.
Por ejemplo, si 2 de cada tres palabras en un Business Partner se definen como palabras coincidentes, el PRMW es del 66,7 %. Para una cadena de búsqueda de dos palabras con solo un token que califique como palabras coincidentes, hemos bajado al 50% de PRMW. Si el parámetro Tasa de porcentaje de palabras coincidentes se establece en 51 %, el primer ejemplo con tres palabras pasará a la siguiente etapa, mientras que la última muestra se ignorará y nunca aparecerá como un posible acierto. Si la configuración de PRMW es del 67 %, las tres palabras en una cadena de búsqueda de tres palabras de longitud deben calificar como una coincidencia (de acuerdo con el parámetro de exactitud) para ser elegible como un acierto potencial.
Tenga en cuenta que las palabras vacías están excluidas del cálculo de las palabras coincidentes.
La siguiente tabla muestra la cantidad de palabras en un socio comercial que debe calificar como palabras coincidentes para que califique como un posible acierto, con una tasa de porcentaje variable de configuración de palabras coincidentes:
Porcentaje de acierto potencial
50% 1 palabra coincidente de 2 palabras
51%-66% 2 palabras coincidentes de 3 palabras
67%-75% 3 palabras coincidentes de 4 palabras
76%-80% 4 palabras coincidentes de 5 palabras.
Las entradas que alcancen el umbral para la tasa de porcentaje de palabras coincidentes ingresarán a la etapa 3. En la etapa 3, SAP HANA Search determina una puntuación final para cada cadena de búsqueda de Business Partner. Se utilizará la puntuación del token por encima de la configuración de exactitud de la primera etapa, influenciada por las palabras vacías y el mapeo de términos.
Sin palabras vacías ni asignaciones de términos, esto se puede expresar como:
Puntaje final = Raíz cuadrada (∑(tokenScore²) ÷ Número máximo de palabras en el nombre de BP o en el nombre de SPL).
Solo los socios comerciales con una puntuación final superior al parámetro de puntuación mínima se presentarán como aciertos de SPL, lo que provocará el bloqueo de transacciones y socios comerciales.
A diferencia del parámetro de búsqueda Exactitud, este parámetro afecta los nombres y direcciones como un todo y no el palabras individuales.
Por supuesto, puede preguntarse por qué necesita relacionarse con todos estos parámetros.
En última instancia, es un equilibrio entre la tolerancia requerida, el nivel de seguridad requerido y una carga de trabajo aceptable. Es posible que se necesite tolerancia debido a la calidad de los datos en sus datos maestros, tal vez con variaciones considerables en la ortografía. Si todos sus datos maestros se escribieron exactamente como las entradas en las listas de SPL, no se necesitaría tolerancia.
Dependiendo de la sensibilidad y el riesgo de su industria, una tolerancia más alta o más baja puede ser apropiada. Una alta tolerancia a los errores dará lugar a más aciertos y, en consecuencia, a más falsos positivos. Una tolerancia baja puede llevar a que no se implementen los bloques SPL deseados.
Todos los aciertos, falsos o no, deben revisarse y requieren tiempo y esfuerzo. Entonces, finalmente, se trata de una cuestión del esfuerzo que desea invertir para garantizar que cumpla con las normas.
Para ayudarte en el camino, veamos un ejemplo:
Entrada SPL: MC OVERSEAS TRADING COMPANY SA DE CV
Puntaje de exactitud: 80%
Tasa de porcentaje de palabras coincidentes: 75%
Puntuación mínima: 70%
Palabras vacías: “SA”, y “SA DE CV”
Los siguientes Socios Comerciales serán considerados como aciertos (puntuación general):
MC OVERSEAS TRADING COMPANY DE CV SA (84%)
MC OVERSEAS TRADING COMPANY SA (99%)
MC OVERSEAS TRADING COMPANY SA DE (90%)
MC OVERSEAS TRADING COMPANY SB DE CV (75%)
AB OVERSEAS TRADING COMPANY SA DE CV (92%)
AB COMPAÑÍA DE COMERCIO EN EL EXTRANJERO SA (88%)
AB EMPRESA COMERCIAL EN EL EXTRANJERO (85%)
Para el ojo humano, puede ser obvio que los tres últimos no deben incluirse.
Técnicamente, sin embargo, califican.
Ajustemos los parámetros:
Puntaje de exactitud: 80%
Tasa de porcentaje de palabras coincidentes: 80%
Puntuación mínima: 70%
Palabras vacías: “SA”, y “SA DE CV”
MC OVERSEAS TRADING COMPANY DE CV SA (84%)
MC OVERSEAS TRADING COMPANY SA (99%)
MC OVERSEAS TRADING COMPANY SA DE (90%)
MC OVERSEAS TRADING COMPANY SB DE CV (75%)
AB OVERSEAS TRADING COMPANY SA DE CV no coincide
AB OVERSEAS TRADING COMPANY SA sin coincidencia
AB OVERSEAS TRADING COMPANY no coincide
En nuestro caso, las muchas palabras similares obviamente llevaron a que AB OVERSEAS TRADING COMPANY se considerara un éxito en comparación con MC OVERSEAS TRADING COMPANY.
Al decidir la tasa de porcentaje de palabras coincidentes, también debe considerar si los siguientes nombres son nombres coincidentes o no.
EMPRESA DE COMERCIO EN EL EXTRANJERO AB
EMPRESA COMERCIAL EN EL EXTRANJERO XY
Si estos nombres se consideran nombres coincidentes, la tasa de porcentaje de palabras coincidentes debe ser inferior o igual al 75 %.
Cuanto mayor sea la puntuación de exactitud, menos fichas calificarán como palabras coincidentes. Por lo tanto, una configuración de puntuación de alta exactitud reducirá el número total de aciertos.
Cuanto más altos sean los parámetros de Tasa de porcentaje de palabras coincidentes, menos socios comerciales aparecerán como aciertos. Por el contrario, cuanto más bajo se establezca, más falsos positivos debe esperar.
Con una puntuación mínima alta establecida, se reducirá el número de aciertos. Sin embargo, experimentará muchos falsos positivos si es demasiado bajo.
Considere usar la búsqueda simétrica, en caso de que el nombre del BP bloqueado contenga más palabras que el nombre del SPL. Como el nombre de SPL: Centro de Investigación Nuclear ABC y el nombre de BP: Centro de Investigación Nuclear ABC OPQ XYZ.
Si desea obtener más información sobre los resultados de la detección de SPL en diferentes procedimientos de comparación, consulte esto.
https://ga.support.sap.com/dtp/viewer/#/tree/2586/actions/35577
Lectura recomendada para aquellos que buscan más detalles sobre la búsqueda de SAP HANA:
https://help.sap.com/docs/SAP_HANA_PLATFORM/691cb949c1034198800afde3e5be6570/ce86ef2fd97610149eaaaa0244ca4d36.html?version=2.0.01
Calle Eloy Gonzalo, 27
Madrid, Madrid.
Código Postal 28010
Paseo de la Reforma 26
Colonia Juárez, Cuauhtémoc
Ciudad de México 06600
Real Cariari
Autopista General Cañas,
San José, SJ 40104
Av. Jorge Basadre 349
San Isidro
Lima, LIM 15073