Talend Big Data Integration


language: ES

                  WEBVTT
Esta máquina virtual tiene montado un par de cosas inicialmente.
Voy aquí a formatear, darle más grande esta letra.
Vamos un poquito más grande por acá. En primer lugar tienen montado un contenido de Docker. En este
caso para el Windows se llama el Desktop Docker. No lo subas todavía. Ese por aquí lo puedes
encontrar, pero aquí Docker, aquí debería aparecerte Docker Desktop. No lo subas,
porque esto ya no vamos a trabajar. En ese Docker Desktop lo que tienes es un contenedor con High
2.7. Ahí está en 4.0, pero tuve un problema con el sistema operativo que me salió un error que
no me dejaba montar. Entonces por cuestión de tiempo monté en 2.7. Esto no te afecta para
el Big Data, pero sí te afecta si vas a algo en producción. ¿Qué diferencia hay? En que High lo
que hace es que cuando te haces una consulta SQL en 2.7 te genera el script MacReduce,
pero en 4.0 ya High no usa MacReduce, sino usa Spark, que evidentemente es mucho más rápido porque
todo tiene memoria. Aclaro que solamente por observación, siempre y cuando tengas memoria,
porque si no tienes memoria termina haciendo swapping, ir a memoria, ir a disk y ir a memoria y
prácticamente haría lo mismo que MacReduce. Eso tienes que tener memoria para poder montar eso.
Entonces es la única diferencia. El 2.7 se basa en MacReduce y el High 4.0 se basa en Spark,
mucho más rápido. Para lo que vas a hacer es transparente, porque el Spark, porque al final
el señor se conecta desde el High y hace todo de manera visual. Entonces ya el High internamente
es una cosa que te la devuelve hacia el talent o hacia quien lo consume, pero para la práctica
es, digamos, es transparente la diferencia que hay como talento. Por otro lado vas a tener montado
una máquina virtual sobre Ubuntu, o sea, sobre Ubuntu si no estoy mal 20 y en esta máquina virtual
vas a tener el Hadoop. ¿Por qué la máquina virtual? Bueno, varias cosas. ¿Por qué no lo monté
sobre Windows? No, en realidad lo intenté montar, pero me salió un error ahí y a veces errores
desgastan en tiempo y encontrarlo. Entonces decidí montarlo en Ubuntu. Si analizamos a nivel de
Listo, entonces vamos al Hyper-V.
Bueno, ahí va a estar montando, lo dejo quieto por un lado. Voy acá al Hyper-V y aquí tengo una
máquina virtual llamada NobleProp. Esa máquina virtual, como te decía, está Ubuntu y tiene montado
el Hadoop. Por favor dale doble clic a la máquina virtual y dale Start si eres tan amable. Aquí le
dice, tú divertiste en el periodo automatic checkpoint. Dale continuar, ahí no recuerdo
qué dice en esa parte. No sé qué dice en ese checkpoint, no recuerdo. Y esperamos que monté.
Va a haber muchas tecnologías en juego, esperamos que no tengamos ningún problema técnico con las
tecnologías. Esperamos que suba entonces la máquina virtual. En este caso la máquina virtual tiene
2 GB. Aquí le monté, en Ubuntu le monté la capa gráfica, pero recordará que cuando estamos a nivel
de servidores normalmente yo tengo capa gráfica. Es por una cuestión netamente porque la capa
gráfica lo que me ocupa lo puedo utilizar para atender más clientes. El caso de las últimas
versiones de Windows, ya tú puedes montar tu Windows Server sin necesidad de la capa gráfica.
Espero entonces un momento. Si tiene dos chicas, entonces ahí empieza a hacer cositas y puede
molar un poco. Espero entonces, espero que todavía le cargue a Bruno, le cargó a Bruno, todavía
entre el usuario Hdud y el password es Hdud como está ahí, como está el nombre de usuario,
pero en minúscula. Es decir, es el mismo no, el password no es el mismo nombre de usuario,
sino que el H en minúsculo. Ahí no le coloque en realidad más memoria porque es que después cuando
bueno espero que cargue entonces listo. Por favor entonces hagamos lo siguiente. En primer lugar,
aquí no nos vamos a meter nada con la capa gráfica, no sé, al final no se para qué le
coloque esa capa gráfica. Voy a ver por la aceleración que tenía. Váyase aquí al menú,
mire si le aparece en la parte final terminal que es la shell, la shell que vamos a usar,
la shell en bash que tiene el señor Ubuntu. Le clic en terminal y te va a abrir una shell, ok?
Acá bajito, acá le da clic aquí, ahí están los puntitos para que salgan todas las aplicaciones
y clic en terminal. Si no te aparece, aquí escribe la palabra terminal y te va a aparecer entonces.
Veo para ver si estamos todos. ¿Cómo se ve? Acá en la parte de abajo, ve. Acá en la parte de abajo,
show application aquí y le das clic en terminal si no te aparece. Si no te aparece,
ahí listo, perfecto, ya está. Bueno, perfecto. Bruno, el power es Heduque minúsculo, ok?
Ok, el mismo nombre Heduque minúscula, así como está el nombre del usuario pero con minúscula
y en la terminal, en esta terminal coloque el comando ifconfig y le da enter.
Ifconfig
y analiza la dirección, creo que la dirección es igual para todos. Mi dirección IP de esta
máquina es 172.20, 176.2. ¿Esa es la misma para todos? Creo que sí porque coge la máquina de
Torme, sí, bueno, perfecto, listo. Ahora, en el Windows, en la máquina host, abre una shell,
vamos a abrir la shell de CMD y dele el comando entonces acá, el mismo pero con IP, ipconfig.
IPconfig
y mi dirección acá de esta máquina es 10.10.3.47 y tiene un adaptador de su
red que apunta a la misma red con máscara su red que igual a la de la máquina. Queda esa parte
técnica, haga lo siguiente, haga un pin, comando pin hacia, es decir, coloque pin hacia 172.20.176.2.
El sitio de Windows, la shell de Windows CMD, haga el pin y verifique que tenga respuesta.
Vamos a ver.
El problema es que este adaptador le generó una su red diferente. Bueno, hagamos lo siguiente,
entonces, si no va a llegar. Perdón, confirmo si no te va a llegar porque la su red es diferente.
Hay que cambiar la su red que no saca, hay que cambiar la dirección IP de acá. Sabía que esto
Entonces, hagamos lo siguiente.
Vaya por acá y aquí está como una pequeña red aquí. Aquí le da click en este botoncito
y vaya a la opción que hice conectado por cables, wire connect y coge wire setting.
Y vamos por la misma. Aquí le da click para la conexión.
Vaya a IPv4 y cambie la dirección por la siguiente. Esta dirección que está aquí,
vamos a cambiarla por la siguiente. Cambiemos por la siguiente,
cambiamos por 172.25.64.2. 172.25.64.2. Dale a aplicar.
El password de J.Mendes es Juan. Todo en minúscula. Juan. J.U.A.N. Todo en minúscula. Juan.
Recuerda, la dirección es 172.25.64.2. Listo, después que hiciste eso,
hay que aplicar los cambios. Entonces, apaga la tarjeta de REC y la vuelves a encender.
Por favor, vete nuevamente a la terminal y flecha arriba, busca el comando ifconfig y
le das enter. Y te va a aparecer la nueva dirección que configuraste.
Si terminaste, por favor vuelve a hacer pin sobre la nueva dirección que configuraste y te debes
tener respuesta. No, .64. La dirección que vas a cambiar es esta. Un momento y la coloco acá.
Y te aparece la lujba. Cuenta más.
No, porque tendría que colocarla. Yo creo que lo mejor. A todo le aparece una máscara,
una dirección IP diferente acá en Windows. Hace que como que genera elatorio. Es decir,
esta dirección de la tarjeta de su REC es la misma para todo.
No, no, no. Entonces, hagamos lo siguiente mejor. Hagamos lo siguiente. Váyase aquí,
no nos compliquemos la vida. Váyase por aquí. Y dígale IP virtual que se la genera automáticamente
un DHCP. Él busca un DHCP y lo genera. Léle aquí aplicar. No la use manual.
No, si te funcionó bien. Si te funcionó a ti no hay problema. Déjala así. Ok. Si te funciona el pin.
Entonces mejor apliquemos aquí automático. Aplicamos acá.
Apagamos nuevamente. Volvemos a encender y busque. Dígame.
Esto. Entra a la configuración esta. Pasa IPv4 y aquí IP método de licencia automática, DHCP.
Listo. Después que haces eso, apaga la tarjeta de REC y la vuelves a encender. Debería darte
una dirección en el mismo rango de la IP virtual del túnel que tienes. Dale IP config.
Y mira a ver qué dirección te dio. A esta dirección que te dio le das un pin a Windows.
Por ejemplo, a mí me dio un pin a 172.25.67.182.
Hazle pin a la dirección que te dio a ti. Porque como está generando el atorio la IP,
entonces ahí fue un problema de configuración de la máquina virtual. Listo. Ya pa' qué.
A quién le colaboro para ver? No sé quién hizo el pin. A quién no le funcionó el pin pues?
Perfecto. Ten en cuenta esa IP que la necesitamos ahora.
¿Quién no? Bruno. Voy para allá, Bruno.
Bueno, vamos a ver. Tú hiciste automática, ¿Verdad? Dale entonces acá en Windows,
acá en la, como decía alguno, en la ventanita negra. Dale pin.
Pin ahí, pin con G espacio a la 172.30.98.104. Qué raro. Dale entra ahí.
Vamos a ver si tiene respuesta. Ahí está, repli. Perfecto. Ojo con esa IP, ojo con esa IP. No,
la necesito ahora, viste. Bien, esa IP la necesitamos ahora. Bien, sigamos entonces.
Eso va más que todo a nivel de conexión. Ahí pido disculpas y debí configurar eso de manera
estática. Pero bueno, ahí ya lo que fue, fue ya. Listo entonces. Ahora, comandos típicos. Dale
entonces el comando Clear para borrar. Clear aquí. Le borra. Clear.
Esto en realidad lo monté de esta forma porque partiendo del hecho de que
en experiencias pasadas con la máquina virtual se nos perdían unos archivos,
entonces hay la posibilidad de que se nos pierdan algunos archivos. Entonces, por eso lo configure
de esta manera. En caso que se configura hay que reiniciar nuevamente los servicios. Me voy ahora
en que no es necesario que usted sepa esto, pero para poder montar esos servicios vamos a darle unos
comandos propios del señor Hadut. Más específicamente el HDS de Hadut. Ahí en esa ventana vamos a
escribir el siguiente comando. HDFS main node menos format. Eso lo que hace es que formatea todas las
carpetas que tenga ella anteriormente y cualquier archivo lo borra por si acaso hay algún. Para
bueno ese fue el primer comando lo dejo aquí y él termina de ejecutar. Perfecto. Eso lo que hizo
fue que si había una carpeta en el sistema de ficheros de HDS de Hadut, la borró porque hice
que formateara. Ahora sí vamos a subir los servicios de Hadut. Para subir hay varios servicios entonces.
Vamos entonces a lo siguiente. El servicio que vamos a subir inicialmente se llama así star dfs.sh.
Entonces haga lo siguiente. Como yo tengo ya en el path la ruta de ese archivo va a copiar nada más
y escribe de tab. O sea escribe hasta la D si quieres y le das tab. Es lo que va a hacer es que va a buscar
en el path algún al fichero que empiece de esa forma y le agregas aquí si le das tab. No, no hay nada.
Hay varios archivos le agregas el sh y le das enter.
Espérate puede demorar un tiempo porque nada más tengo 2 gigas de memoria.
Agrega la arquitectura que te haya visto los day nodos que es el señor maestro y
delega tareas hasta el day nod. El puede demorar un tiempo porque principalmente
tengo problemas a nivel de memoria. Tengo poca memoria. Es claro que las operaciones
las vamos a hacer sobre archivos muy pequeños pero al final le da lo mismo. ¿Por qué? Porque
da lo mismo grande o pequeño simplemente el problema es de máquina. Esperamos un momento.
Y espero que todo le termine. A mí todavía no ha terminado de subir el servicio.
Cuando termine voy escribiendo entonces el otro servicio.
Cuando termine le vamos a dar entonces start y cap.
Con el comando es así yarn.sh
Aquí en la el caso tiene que esperar que termine. Te del prom.
En el caso tuve no terminado todavía me parece.
Ahora sí terminó. Si terminó le das entonces este start yarn. ¿Cómo haces?
Y le agregas el sh. Ese es el comando.
Al final le das enter también puede demorar subiendo algunos servicios que necesitas a un
y una cuestión desde mi experiencia que cuando estos señores vienen
a ver si tienen. Pues nuestros señores vienen de Linus y debo confiar en Win,
te aseguro que en Linus es más fácil configurarlo. A menos que en Win tengas un
punto X. Si no mi hermano se hay que agregar una cantidad de cosas que hacen no funcionan.
Deberías que fallan. Ah eso no. Y espere a que termine entonces. Cuando termines,
si ya terminó le das el comando JPS y te va a mostrar los los servicios que tiene montado.
Bueno acá se llama demonios. Los demonios que son los mismos servicios en Windows.
Normalmente un servicio que es un proceso que se ejecuta en background.
Es exactamente el mismo término siendo que acá se llama demonios.
Los demonios no vienen a religioso. Y ahí te vamos a dar entonces los servicios que
montó. Deberían servicios coincidir con los míos que tengo acá. Si no coinciden tenemos un problema.
Sí creo que bruno todavía te falta el YAR, ¿verdad? El comando YAR.
Carlos tiene Liana también, Arturo también. El segundo comando. Si el segundo comando es este.
Star YAR. Lo dejas hasta la Y y le das tap o lo que llaman Y. Espera a que termine de ejecutar y le
das JPS. Los servicios deben coincidir con esto que está acá. Esto simplemente para agregar. Cuando
estábamos en el SB recuerda que el SB o tú ejecutabas por allá un servicio tipo REST. Lo que
hacía es que te abría un puerto TCP. Esos servicios lo que están habiendo son puertos TCP y si te toques
la parte de configuración tienes que estar pendiente de abrir el firewall para esos tipos
de servicios. Si tú quieres darle el siguiente comando net stat. Net, perdón. Net stat. Espacio
Bueno no lo veo pero espero que sí esté. Bien, revisa lo siguiente. Cuando veas esto 0000 indica
que a este puerto TCP se pueden conectar cualquier IP. Si quieres vamos a expandirlo aquí mejor.
Cuando veas un 0000 significa solamente cualquier IP se puede conectar y cuando veas por ejemplo
un 127 así significa que solamente esta máquina se puede conectar a ese puerto. Es la teoría básica
de redes que está ahí. Bueno esto me lo dejas abierto aquí. Si quieres ahora vete y abre una
recuerda la IP. Entonces a esa IP que está ahí la vas a colocar acá en el browser en la
barra direcciones. Le vas a colocar dos puntos y le vas a decir que se conecte a la máquina
virtual que es la IP y le vas a dar que te muestre que tiene en el puerto 9870.
Esta es listo. Entonces sería esto así.
Vas a colocar allá. Aquí te coloco XXX. X punto X punto X punto X porque la IP tuya es variable.
Dos puntos 9870 entra. Te va a aparecer esa interfaz que te va a dar el estado del del del
hot. Avisa si alguno tiene problemas. Espero todavía que hay algunos que veo que no han
verificado si tiene conectividad. El comando que me dijo por el... perdón que me dijo el...
lo que vas a colocar en el browser. En el browser vas a colocar la IP de la máquina
remota que hiciste spin le agregas dos puntos y el puerto 9870.
Y te va a aparecer la interfaz gráfica que tengo en la parte de atrás. Normalmente esto tú no
lo configuras. Esto lo configura el departamento IT. Fue su defecto el DevOps de tu empresa. Tú lo
que haces es que te conectas a esto que está acá. Pero aquí somos todero en esta vez. Somos ingenios
troperos. Tengo que montar todo. Listo. No sé. Misael, ¿Listo? Bruno, ¿Cómo vas? Diana, ¿Te salió?
Vamos a ver entonces. Vamos a ver. Bien. Entonces cópiate esta. Si quieres selecciona. Selecciona
este IP después del pin. Selecciona ese IP. Perdón. Sí, sí, esa. Dale enter. Dale enter ahí. Ah,
bueno, copiar también. Sí, enter te copias. O le das copia. Ahí está. Copia o enter. Ahora pega esa dirección ahí
Bueno, listo. Pues apareció. Yo creo que todos la tienen ya perfectamente. Vamos entonces aquí.
Sobre esto, aquí, ¿Qué podemos ver interesante? Bueno, nada me interesa solamente una parte de esta
interfaz. Aquí solamente para mencionarte, tengo solamente, en DayNode, nada más tengo uno activo.
Evidentemente, si empezamos a comparar, tradicional, a ver si tengo la gráfica por acá,
pero ese momento que fue que lo cerré, bueno, parece que la aburré. Sí, la aburré. Bueno,
si recuerda que tradicionalmente que hacía yo, formaba clúster y hacía un escalamiento horizontal.
Los nodos son los que escalan horizontalmente. Entonces, ¿Qué ventajas tendrías tú comparado?
Ventajas, ventajas. No significa que lo necesites. Ventajas. Ventajas comparado con el sistema
tradicional. Primero, el escalamiento horizontal te llega a miles de nodos. Mientras que el
escalamiento horizontal en un sistema tradicional de base de datos te llega a cientos de nodos.
O sea, de ahí te va ganando el Big Data. Segundo, a nivel de costos. Costos, primero, económico. Si
hablamos de licencias, al montar un clúster, no lo tengo así, estoy sincero que hace rato yo no me
meto con precio de Oracle, pero Oracle es carito. O sea, Oracle, bueno, Oracle si tiene Oracle es
sinónimo de billete porque eso es caro. Pero cada nodo que tú vayas agregando tienes que pagarle
a Oracle más billetes, más plata por la licencia, si no, no lo puedes usar. Y por costos a nivel de
complejidad, no. Agregar un nodo simplemente tú vas a un archivo xml, dar la configuración del
nodo en características a nivel de la IP, en el otro nodo instalar una cosa muy mínima. O sea,
la configuración en costo es mínima comparado con lo que tú haces allá con el Oracle o con el Pocres.
Y que vamos, o sea, bueno, ya te hablé de precio. Bien, solamente eso a nivel de, ah, otra cosa,
a nivel de costo, se me escapó decirla ya. Cuando tú montas un clúster a nivel de escalamiento
horizontal, de base de datos, llama a Oracle, Pocres, de secure server que te gusta a ti,
porque la mayoría te lo permiten. El problema es que la máquina tiene que tener encendida,
independiente que ese clúster lo use, o sea, use todos los nodos que están en ese clúster.
Entonces, partiendo del hecho, si tu infraestructura está un premais, eso te acarrea costo a nivel de
electricidad porque tienes una máquina más encendida. Al tener una máquina más encendida,
consume la máquina y el aire acondicionado, porque tienes que tener una temperatura estándar,
te consume más, paga más billete. En cambio, que ahora lo que estamos haciendo, lo que se está
haciendo hoy en día, y esto está más que todo sobre el cloud computing, es lo siguiente. Es decir,
tú cuando vayas a necesitar nodos, el cloud computing se estira, que es la principal diferencia
cloud computing o el cloud autocontracional, es que yo me puedo estirar dependiendo de las
características. Al final, ¿qué es lo que tú haces? Tú montas un Kubernetes y lo que hace al final
es que dependiendo de la cantidad de nodos que necesites, se van creando contenedores, contenedores,
y esos contenedores te ayudan a solucionar problemas en tiempo de ejecución, en el momento que tú
incides. Recuerda que esos contenedores tú los montas sobre un cluster de hardware, cluster
grupo, y esos contenedores se ejecutan sobre hardware, digamos, sobre la arquitectura del
cluster que tengas tú. Esas son las principales diferencias de las ventajas. Nuevamente, no es que
signifique big data, es comparado de pronto un big data con un cluster a nivel de base de datos.
Listo, ¿a qué hora tenemos uno? No tenía máquina para montar dos, porque me tocaría,
para que tenga sentido, me tocaría montarlo en dos máquinas, porque montar dos nodos en la misma
máquina, lo que me serviría es para réplica del sistema de ficheros, pero de ahí para más nada.
Y lo que me interesa al final, eso simplemente es para mostrar, yo en realidad no, aquí te muestra
cuál es el volumen, cuánto es el tamaño que tiene cada nodo, pero eso no es el objetivo. Lo que me
interesa aquí es este que dice Browse al sistema de ficheros. Te aparece en blanco, ¿verdad? Bueno,
configuremos eso. Listo, vete a la máquina virtual que tienes. Perdón, ¿a qué? Ah, en la última
opción que te dice Utilities, la primera opción. Déjame esa ventana ahí, que es la que le vamos
a necesitar un poquito. Vete ya por último acá a la máquina virtual, si eres tan amable,
la tienes abierta aquí. Se cerró por el tiempo, vuélvete a loguear como a HEDU.
Dale click a la terminal si eres tan amable. Perdón, aquí le di con doble C.
Vamos a dar el siguiente comando. Vamos a crear una carpeta en la cual voy a tener mis archivos.
Recuerda que en este caso voy a montar un data lake. Al final necesito una carpeta. O sea,
recordándole, amigo mío, un S3. Vamos entonces. Mira lo que vas a hacer ahora. Vas a ejecutar el
siguiente comando. HDFS-MKDIR y crea la carpeta. Slash, el slash es importante.
Aquí slash en el Linux es sumamente importante y va a crear la carpeta NobleProc.
Lo que está diciendo es que oye, créame en el sistema de ficheros de Hadoop una carpeta que se
llama NobleProc. Esa carpeta no está directamente sobre el sistema Linux,
sino que está sobre la capa de Hadoop. O sea, en este caso no está sobre Ubuntu.
Permítame y la memoria no me falla. Voy a hacer esto porque de pronto me falla la memoria.                

on 2024-02-27

Visit the Talend Big Data Integration course recordings page

United Arab Emirates - Talend Big Data Integration

4 videos