{"id":731,"date":"2023-07-22T15:40:34","date_gmt":"2023-07-22T15:40:34","guid":{"rendered":"https:\/\/codeandalucia.com\/?p=731"},"modified":"2023-07-23T09:53:46","modified_gmt":"2023-07-23T09:53:46","slug":"openhouse-para-la-gestion-de-big-data-parte-i","status":"publish","type":"post","link":"https:\/\/codeandalucia.com\/index.php\/2023\/07\/22\/openhouse-para-la-gestion-de-big-data-parte-i\/","title":{"rendered":"OpenHouse para la gesti\u00f3n de Big Data."},"content":{"rendered":"\n<figure class=\"wp-block-image aligncenter size-large\"><img decoding=\"async\" src=\"https:\/\/content.linkedin.com\/content\/dam\/engineering\/site-assets\/images\/blog\/posts\/2023\/07\/openhouse\/image3.jpg.resize.350.350.jpg\/1689349993966.png\" alt=\"\"\/><\/figure>\n\n\n\n<pre class=\"wp-block-preformatted\">LinkedIn ha desarrollado un sistema de datos de c\u00f3digo abierto para potenciar cargas de trabajo de an\u00e1lisis y machine learning. Utilizan datos para tomar decisiones y brindar a sus miembros mejores ideas sobre empleos y conexiones profesionales a nivel mundial.\n\nLas implementaciones de este data lakehouse de c\u00f3digo abierto se basan en motores de c\u00e1lculo como Apache Spark, Trino y Apache Flink, almacenamiento distribuido como HDFS y almacenamiento en la nube, y cat\u00e1logos de metadatos\/formatos de tablas como Apache Iceberg, Delta, Hudi y Apache Hive Metastore. Los usuarios crean tablas relacionales sobre datos estructurados o semi-estructurados mediante motores de c\u00e1lculo, con metadatos almacenados en un cat\u00e1logo y datos en almacenamiento distribuido.\n\nAunque funcional, la gesti\u00f3n actual de tablas es fragmentada, con componentes independientes en un plano general de datos. La falta de un sistema de c\u00f3digo abierto que los unifique es un desaf\u00edo para simplificar la gesti\u00f3n del \"lakehouse\", optimizar consultas, establecer gobernabilidad y mejorar la experiencia del desarrollador. Los cient\u00edficos de datos y otros profesionales deben lidiar con m\u00faltiples sistemas y gestionar tablas individualmente, lo que puede generar complejidad e inconsistencias.\n\nPara abordar esto, LinkedIn ha creado OpenHouse, un sistema que permite a los desarrolladores interactuar con las tablas administradas en su data lakehouse. Con OpenHouse, se busca especificar declarativamente las definiciones y pol\u00edticas de las tablas utilizando una API como SQL, para que el lakehouse se encargue del resto. Esto reduce la carga de trabajo para los desarrolladores y mejora la administraci\u00f3n de tablas, brindando una experiencia m\u00e1s eficiente.<\/pre>\n\n\n\n<pre class=\"wp-block-preformatted\">Linkedin desarroll\u00f3 OpenHouse siguiendo cuatro principios rectores para permitir que los equipos de plataforma de datos y los usuarios de big data creen tablas completamente administradas, compartibles p\u00fablicamente y gobernadas en implementaciones de lakehouse de c\u00f3digo abierto:<\/pre>\n\n\n\n<ol class=\"wp-block-list\"><\/ol>\n\n\n\n<pre class=\"wp-block-preformatted\">1. <strong>Las tablas son la \u00fanica abstracci\u00f3n API para los usuarios.<\/strong> Todos los accesos a los datos de las tablas deben realizarse a trav\u00e9s de una interfaz de tabla, evitando lectura\/escritura directa de archivos o blobs en almacenamiento distribuido.\n\n2. Las tablas <strong>se almacenan en un espacio de nombres de almacenamiento protegido<\/strong>, lo que permite al sistema tener control total sobre la gesti\u00f3n, organizaci\u00f3n de datos, seguridad, disponibilidad y cuotas.\n\n3. Las tablas est\u00e1n <strong>gobernadas seg\u00fan los est\u00e1ndares acordados por la empresa<\/strong>, lo que permite aplicar restricciones a modelos de datos, cumplimiento y otros metadatos.\n\n4. Para asegurar un rendimiento \u00f3ptimo, las tablas <strong>se mantienen regularmente mediante ajustes basados en estad\u00edsticas de consulta<\/strong> y la recopilaci\u00f3n de versiones expiradas. La experiencia del usuario, denominada \"Northstar\", ofrece una fluidez para crear, manipular y compartir tablas a trav\u00e9s de llamadas de API, con soporte para sintaxis est\u00e1ndar de SQL o Dataframe.<\/pre>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/content.linkedin.com\/content\/dam\/engineering\/site-assets\/images\/blog\/posts\/2023\/07\/openhouse\/image2.jpg\" alt=\"\" width=\"871\" height=\"578\"\/><figcaption class=\"wp-element-caption\">Figure 1: Northstart UX<\/figcaption><\/figure>\n\n\n\n<pre class=\"wp-block-preformatted\">La Figura 1 muestra la experiencia del usuario \"Northstar\" hacia la que OpenHouse se orienta. Este flujo permite a los usuarios crear una tabla, manipular los metadatos de la tabla, cargar datos y compartirlos mediante una \u00fanica cadena de llamadas de API. En esta experiencia del usuario, la mayor\u00eda de las llamadas de API se pueden realizar aprovechando la sintaxis est\u00e1ndar de SQL o Dataframe.<\/pre>\n\n\n\n<h3>RESUMEN:<\/h3>\n<ul>\n  <li>LinkedIn ha desarrollado un sistema de datos de c\u00f3digo abierto para an\u00e1lisis y machine learning, utilizando datos para ofrecer a sus miembros informaci\u00f3n sobre empleos y conexiones profesionales a nivel mundial.<\/li>\n  <li>La implementaci\u00f3n de este data lakehouse de c\u00f3digo abierto se basa en motores de c\u00e1lculo como Apache Spark, Trino y Apache Flink, almacenamiento distribuido como HDFS y almacenamiento en la nube, y cat\u00e1logos de metadatos\/formatos de tablas como Apache Iceberg, Delta, Hudi y Apache Hive Metastore.<\/li>\n  <li>Para abordar la fragmentaci\u00f3n en la gesti\u00f3n de tablas, LinkedIn ha creado OpenHouse, un sistema que permite a los desarrolladores interactuar con las tablas administradas en su data lakehouse, especificando declarativamente las definiciones y pol\u00edticas de las tablas utilizando una API como SQL.<\/li>\n  <li>Los principios rectores de OpenHouse incluyen utilizar tablas como la \u00fanica abstracci\u00f3n API para los usuarios, almacenar las tablas en un espacio de nombres de almacenamiento protegido, gobernar las tablas seg\u00fan los est\u00e1ndares de la empresa y mantener regularmente las tablas para asegurar un rendimiento \u00f3ptimo.<\/li>\n<li>La experiencia del usuario &#8220;Northstar&#8221; en OpenHouse permite a los usuarios crear, manipular, cargar y compartir tablas con una sola cadena de llamadas de API, aprovechando la sintaxis est\u00e1ndar de SQL o Dataframe.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><div class=\"wp-block-button is-style-fill\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/engineering.linkedin.com\/blog\/2023\/taking-charge-of-tables--introducing-openhouse-for-big-data-mana\">Referencia: Introducing OpenHouse for Big Data Management<\/a><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>LinkedIn ha desarrollado un sistema de datos de c\u00f3digo abierto para potenciar cargas de trabajo de an\u00e1lisis y machine learning. Utilizan datos para tomar decisiones y brindar a sus miembros mejores ideas sobre empleos y conexiones profesionales a nivel mundial. Las implementaciones de este data lakehouse de c\u00f3digo abierto se basan en motores de c\u00e1lculo &hellip;<\/p>\n<p class=\"read-more\"> <a class=\"\" href=\"https:\/\/codeandalucia.com\/index.php\/2023\/07\/22\/openhouse-para-la-gestion-de-big-data-parte-i\/\"> <span class=\"screen-reader-text\">OpenHouse para la gesti\u00f3n de Big Data.<\/span> Read More &raquo;<\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"default","ast-global-header-display":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","footnotes":""},"categories":[55],"tags":[52,54,53],"class_list":["post-731","post","type-post","status-publish","format-standard","hentry","category-big-data","tag-big-data","tag-estructura-de-datos","tag-linkedin"],"_links":{"self":[{"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/posts\/731","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/comments?post=731"}],"version-history":[{"count":9,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/posts\/731\/revisions"}],"predecessor-version":[{"id":749,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/posts\/731\/revisions\/749"}],"wp:attachment":[{"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/media?parent=731"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/categories?post=731"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/codeandalucia.com\/index.php\/wp-json\/wp\/v2\/tags?post=731"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}