todos los sistemas de archivos

Upload: mari-solecito

Post on 27-Feb-2018

233 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Todos los Sistemas De Archivos

    1/42

    Sistemas De ArchivosGrupo #10Nombre: Carnet:Kenia Marisol Zepeda Lpez 2012-12Ana Lucrecia Villatoro Rodriguez 2012-22Wendy Luca Mazariegos Samayoa 2007-14Sergio Giovanni de Len Torn 2013-14Cristi Juana Vsquez Jurez 2011-14Bryan Leinder Cordero Caballeros 2013-18Cristian Esteban Moino Rodriguez 2011-14

  • 7/25/2019 Todos los Sistemas De Archivos

    2/42

    SISTEMA DE ARCHIVOS EXT4

    (FOURTH EXTENDED FILESYSTE

    Este sistema de archivos es el cuarto sistema de archivos ext

    siguiente etapa del conjunto de sistemas de archivos extendido, q

    ms utilizados por los usuarios de Linux.

    Es un sistema de archivos con bitcora (en ingls: Journaling) co

    una mejora compatible de ext3. El Ext4 fue publicado como estadiciembre de 2008 en la versin 2.6.28 del ncleo Linux y desde

    encuentra disponible para el uso en sistemas de produccin.

  • 7/25/2019 Todos los Sistemas De Archivos

    3/42

    GENERALIDADES DE LOS SISTEMA

    ARCHIVOS EXT

    El sistema de archivos (EXT) extendido en general fue el primer sist

    archivos creado especficamente para el sistema operativo de Linux

    reemplazado por el sistema de archivos EXT2. El EXT2 fue el sistem

    por defecto de las distribuciones de LinuxReadHat Linux, Fedora C

    Los lanzamientos de las nuevas versiones estables, EXT3 y EXT4,

    desplazado considerablemente su uso.

    https://es.wikipedia.org/wiki/Ext3https://es.wikipedia.org/wiki/Ext4https://es.wikipedia.org/wiki/Ext4https://es.wikipedia.org/wiki/Ext3
  • 7/25/2019 Todos los Sistemas De Archivos

    4/42

    SISTEMA DE ARCHIVOS EXT4

    (mejoras)

    El sistema de archivos ext4 es capaz de trabajar con volmenes de

    hasta 1 exbibyte ( unidad informtica utilizada como un mltiplo de

    a 260bytes.) y archivos de tamao de hasta 16 TiB (unidad de info

    utilizada como un mltiplo del byte. Equivale a 240bytes.).

    Es una mejora compatible de ext3 que utiliza menos CPU y mejode lectura y escritura.

    https://es.wikipedia.org/wiki/Byte
  • 7/25/2019 Todos los Sistemas De Archivos

    5/42

    SISTEMA DE ARCHIVOS EXT4

    (caractersticas principales)

    Soporte de volmenes de hasta 1 exabyte (260bytes) y archivos co

    hasta 16 terabytes.

    Menor uso del CPU.

    Mejoras en la velocidad de lectura y escritura.

  • 7/25/2019 Todos los Sistemas De Archivos

    6/42

    SISTEMA DE ARCHIVOS EXT4

    El sistema de archivos tiene una tabla donde se almacenan los i-no

    nodo almacena informacin del archivo (ruta, tamao, ubicacin fsic

    a la ubicacin, es una referencia a un sector del disco donde estn t

    una de las referencias a los bloques del archivo fragmentado. Estos

    de tamao especificable cuando se crea el sistema de archivos, des

    bytes hasta los 4 KiB, lo cual asegura un buen aprovechamiento del

    con archivos pequeos.

    https://es.wikipedia.org/wiki/Kibibyte
  • 7/25/2019 Todos los Sistemas De Archivos

    7/42

    DEFINICIONES RELACIONADAS CON ELSISTEMA DE ARCHIVOS EXT4

    Un inodoalmacena toda la informacin sobre un archivo regular, direobjeto del sistema de archivos, excepto su nombre y su contenido. Testructura de datos propia de los sistemas de archivos tradicionales

  • 7/25/2019 Todos los Sistemas De Archivos

    8/42

    Sistema de Archivos Amazon EFS

    Es un servicio de almacenamiento de archivos para instancAmazon Elastic Compute Cloud .

    La capacidad de almacenamiento es elstica, es decir, aumdisminuye automticamente a medida que agrega o elimin

    de manera que sus aplicaciones disponen del almacenaminecesitan, cuando lo necesitan.

  • 7/25/2019 Todos los Sistemas De Archivos

    9/42

    Casos de Uso:

    -Repositorios de contenedores

    -Entornos de desarrollo.

    -Solucin ideal para aplicaciones de big data.

    Precio: 0,30 USD/GB-mes

  • 7/25/2019 Todos los Sistemas De Archivos

    10/42

    Ventajas:

    Integracin absoluta

    Escalado perfecto

    Servicio totalmente gestionado

    Almacenamiento de archivos compartidos entr

  • 7/25/2019 Todos los Sistemas De Archivos

    11/42

    Rendimiento uniforme y escalable

    Bajo coste

    Alta disponibilidad y durabilidad

    Seguridad

  • 7/25/2019 Todos los Sistemas De Archivos

    12/42

    Amazon S3

    Algunas opciones de almacenamiento en AWS:

  • 7/25/2019 Todos los Sistemas De Archivos

    13/42

    Almacenamiento de Objetos:datos presentados como d

    objetos

    Datos accedidos por APIs a travs de Internet

    Almacenamiento para Archiving: datos presentados com

    vaults/archives de objetos. Storage de menor costo, parason accedidos frecuentemente

    Almacenamiento de Bloques (anlogo a una SAN): datos

    como discos o volmenes

    Acceso de menor latencia a partir de las Instancias EC2

    Almacenamiento de archivos (anlogo a un NAS): datos p

    como un sistema de archivos (file system)

    Acceso de baja latencia y compartido entre mltiples inst

    Back up y archivadode datosen Amazon S3 y Ama

  • 7/25/2019 Todos los Sistemas De Archivos

    14/42

    Amazon S3, Simple Storage Servic

  • 7/25/2019 Todos los Sistemas De Archivos

    15/42

    Amazon S3 almacena datos como objetos dentro de recurso

    como depsitos.

    Se puede realizar operaciones de escritura, lectura y elimin

    objetos almacenados en el contenedor.

    El tamao de los objetos puede ser de hasta 5 terabytes.

    Se puede controlar el acceso al depsito (por ejemplo, quin

    eliminar y recuperar objetos del depsito), ver los registros d

    depsito y a sus objetos, as como elegir la regin de AW

    almacenar un depsito para optimizar la latencia, minimizar

    abordar los requisitos normativos.

  • 7/25/2019 Todos los Sistemas De Archivos

    16/42

    Capacidad, Seguridad y DisponibilidDispondremos de un nico contenedor con una capacidad virtualmente ilimitada.

    almacenemos, ms pagaremos.

    Fsicamente, nuestros datos estarn distribuidos por los Centros de Datos de Am

    algo que permanece ajeno a nosotros .

    Para la organizacin de nuestros archivos, Amazon ha creado tres conceptos:

    Depsitos: son algo parecido a un directorio o carpeta de nuestro sistema o

    colocaremos nuestros archivos. Los nombres de los depsitos estn comparti

    red de Amazon S3, por lo que si creamos un depsito, nadie ms podr usar ese

    nuevo dposito.

    objetos: son las entidades de datos en s, es decir, nuestros archivos. Un objet

    los datos como los metadatos necesarios para S3.

    llaves: son una clave nica dentro de un depsito que identifica a los objetosd

    Un objeto se identifica de manera nica dentro de todo S3 mediante su depsito+

  • 7/25/2019 Todos los Sistemas De Archivos

    17/42

    Por defecto tendremos tres usuarios:

    Owner (propietario), referente al usuario que aloja el archivo

    Authenticated Users (usuarios autenticados), referente a usuari

    autenticados en Amazon

    Everyone (todos), referente a todos los usuarios no autenticado

    cualquier cliente en todo internet.

    Aunque podremos aadir nuevos usuarios de S3 con permisos

    para nuestros datos.

  • 7/25/2019 Todos los Sistemas De Archivos

    18/42

    Precios

  • 7/25/2019 Todos los Sistemas De Archivos

    19/42

    Preguntas FrecuentesP: Qu es Amazon S3? Amazon S3 esalmacenamiento para Internet. Es un sen

    almacenamiento que ofrece a los desarrolladores de software una inf

    almacenamiento de datos altamente escalable, fiable y de baja latencia a precios m

    P: Qu puedo hacer con Amazon S3? Amazon S3 proporciona una sencilla inte

    web que puede utilizar para almacenar y recuperar la cantidad de datos que dese

    y desde cualquier parte de la web. Con este servicio web los desarrollador

    fcilmente aplicaciones que hagan uso del almacenamiento en Internet.

    P: Qu permite hacer a los desarrolladores que no pudieran hacer antes? H

    infraestructura de almacenamiento de datos sofisticada y escalable, como la de

    fuera del alcance de los pequeos desarrolladores. Amazon S3 permite a u

    aprovechar las propias ventajas de Amazon de escalado masivo sin necesidad de

    ni compromisos de rendimiento.

  • 7/25/2019 Todos los Sistemas De Archivos

    20/42

    P: Qu tipo de datos puedo almacenar? Podr almacenar prcticamente todo

    cualquier formato. Consulte el Contrato de licencia de Amazon Web Servicesp

    detalles.

    P: Qu hace Amazon con los datos que tengo en Amazon S3? Amazon almac

    realiza un seguimiento del uso asociado para calcular su factura. Amazon no

    datos con ningn fin que no sea la oferta Amazon S3, a excepcin de cuando la

    Consulte el Contrato de licencia de Amazon Web Services para obtener ms detal

    P: Almacena Amazon sus propios datos en Amazon S3? S. Los desarrollad

    utilizan Amazon S3 para diversos proyectos. Muchos de estos proyectos util

    como almacn de datos autorizado, y confan en l para operaciones de vital imp

    negocio.

    P: De qu forma estn organizados los datos en Amazon S3? Amazon S3 es un

    de datos basado en claves. Cuando almacena datos, asigna una clave de objeto

    utilizarse posteriormente para recuperar los datos. Las claves pueden ser cua

    pueden establecerse de forma que imiten atributos jerrquicos.

    http://aws.amazon.com/agreement
  • 7/25/2019 Todos los Sistemas De Archivos

    21/42

    GOOGLE FILE SYSTEM (GFS)

    Sistema de archivos distribuido que se invent e

    para almacenar y administrar todos los archivos qu

    el funcionamiento de este buscador.

    Descendiente directo de BIG FILES el sistema d

    que Larry Page y Sergey Brin desarrollaron cuan

    empezaba.

  • 7/25/2019 Todos los Sistemas De Archivos

    22/42

    EL EQUIPO UTILIZADO EN GOOGL

    Las mquinas que forman los cluster son:

    - Mquinas Linux.

    - Procesadores Intel Celeron de doble ncleo de 2 GH.

    - Memoria RAM de 2Gb

    - Almacenamiento 800 Gb

    En el 2009 el servidor promedio era de 16Gb de memoria RAM y

    duro.

    Se trabaj con estas caractersticas debido a que Larry y Sergey a

    iniciar no posean los suficientes recursos para grandes mquinas.

  • 7/25/2019 Todos los Sistemas De Archivos

    23/42

    QU ES UN CLUSTER?

    Grupo de sistemas (servidores) independientes, lla

    nodos, que trabajan como un sistema nico para ga

    el alto rendimiento y asegurar la disponibilidad de s

    una empresa.

    Son llamados Mega Centros de Procesamiento de (CPD) ya que cuentan con aproximadamente 2 mill

    mil servidores.

  • 7/25/2019 Todos los Sistemas De Archivos

    24/42

    Lugares donde se encuentran los 13 CPD de Google:

  • 7/25/2019 Todos los Sistemas De Archivos

    25/42

    COMPONENTES DE LOS CLUSTER

  • 7/25/2019 Todos los Sistemas De Archivos

    26/42

    CHUNK SERVERSSus nicas funciones son almacenar los archivos del s

    chunks" y enviar actualizaciones de su estado al nodo maest

    Los chunks; tienen un tamao de bloque de 64Mb para reducde los metadatos asociados a ellos y as evitar que lo

    sobrecarguen individualmente.DESVENTAJA: Que los chunk tengan un tamao de bloque

    puede generar problemas si muchos clientes quieren acced

    chunk lo cual puede generar un cuello de botella.Los chunks nunca son sobreescritos o reducidos en tamao s

    lee o se les adiciona ms informacin hasta ocupar su espaci

    Cada archivos se guarda 3 veces.

  • 7/25/2019 Todos los Sistemas De Archivos

    27/42

    GUARDAR 3 VECES EL ARCHIVO!!

    ESO NO OCUPA MUCHO ESPACIO?

    R//NO,porque permite tener respaldos de informacin

    facilita el acceso a archivos que son muy demandados.

  • 7/25/2019 Todos los Sistemas De Archivos

    28/42

    LOS NODOS MAESTROS

    Son los nodos que tienen la mayor carga de trabajo se en

    guardar los metadatos de cada chunk y administra los

    lectura y escritura de los chunks. Los nodos maestro tam

    registros de los cambios crticos hechos a los archivos y rea

    los archivos que no han sido replicados.

  • 7/25/2019 Todos los Sistemas De Archivos

    29/42

    METADATOSLos metadatos de cada archivo se conforman po

    de identificacin de cada chunk los cuales alime

    en el nodo maestro para dar seguimiento a su ubic

  • 7/25/2019 Todos los Sistemas De Archivos

    30/42

    PROCESO DE LECTURA

    Las aplicaciones funcionando por medio de clientes crean una

    modificacin en la que est el nombre del archivo y su ubicacin, el recibe esta solicitud y responde con la etiqueta de identificacin y lde las rplicas del archivo, el cliente con la respuesta del nodo mamandar la solicitud y empieza a trabajar con la rplica ms cercana.

    Este proceso se hace cada vez que se hace una bsqueda, se hace m

    bsquedas cada segundo o ms de mil millones de bsquedmencionar que el nmero de pginas indexadas tambin est emagnitud de miles de millones.

  • 7/25/2019 Todos los Sistemas De Archivos

    31/42

    Google file system est optimizado para estos grande

    informacin por lo que las mquinas de google opera

    grandes anchos de banda en lugar de ser efe

    operaciones de lectura y escritura pequeas lo cual es

    que suceda si se puede traducir a unidades, google

    cada flujo Petabytes de informacin (1 petabyte = 1 mil

  • 7/25/2019 Todos los Sistemas De Archivos

    32/42

    PROCESO DE ELIMINACIN

    Cuando el sistema decide borrar un archivo no se libera su espacio e

    inmediatamente sino que se le asigna un estado oculto.

    El sistema realiza peridicamente escaneos del estado de memoria yque los archivos llevan en estado oculto ms de tres das se libera sumemoria y se eliminan los metadatos asociados al archivo.

    Es un desventaja tener archivos en espera en la memoria?R// S,pero evita que se borre informacin importante.

  • 7/25/2019 Todos los Sistemas De Archivos

    33/42

    Yahoo! FILE SYSTEM

    En febrero de 2008, Yahoo recibi una oferta de compra por parte

    valorada en 44.600 millones de dlares. La propuesta fue rechempresa al considerarla muy baja. Un ao y medio ms tarde, sin emy Microsoft establecieron un acuerdo respecto al uso del motor de b

    El equipo de bsqueda de Yahoo! con frecuencia bloguea acerca de

    de anuncios, caractersticas, actualizaciones y mejoras. Estoactualizaciones de ndice denominadas climticas actualizacaracterstica de Yahoo! Search ASSIST.

  • 7/25/2019 Todos los Sistemas De Archivos

    34/42

    Yahoo! Search

    Yahoo! Search indexar y almacenar en cach los formatos de pgina

    comunes, as como varios de los ms populares-tipos de archivo, coExcel hojas de clculo, PowerPoint, Word documentos, RSS/XML.Utiinterfaz de bsqueda avanzada o la configuracin de preferencias Yabsqueda permite la personalizacin de los resultados de bsquedade ciertos ajustes tales como: SafeSearch.

    Tambin la seleccin de idioma, nmero de resultados, las restricciodominio, etc. Para una gua Basic y starter a Yahoo! Search, de tambproporciona un tutorial bsico de bsqueda.

  • 7/25/2019 Todos los Sistemas De Archivos

    35/42

    MOTOR DE BSQUEDA DE YAHOO

    En el caso de Yahoo!, ms que de un simple motor de bsquedas se

    considerar como un portal web. Yahoo! no slo puedes realizar sus bla web, adems te ofrece un servicio de correo, agregador de noticiaagencia de viajes, juegos y entretenimiento, etc.

    ES por ello que este motor de busca aun sigue vigente porque est e

    tipo de personas que no les interesa la tecnologa ni como funciona, necesitan un buscador que sea atractivo y donde puedan navegar en

  • 7/25/2019 Todos los Sistemas De Archivos

    36/42

    Hadoop

    Es un framework de software que soporta aplicaciones distribuidas

    licencia libre.Permite a las aplicaciones trabajar con miles de nodos de datos. El crecimiento exponencial de informacin digital y las limitransferencias de datos en las tecnologas de almacenamiento, ha psoluciones como Hadoop que nos permiten realizar de manera eficieprocesamiento, la lectura y la escritura de grandes cantidades de dat

    paralelo y en mltiples discos, donde los discos estn ubicados en dmquinas.

    Hadoop tiene un componente que gestiona los archivos de gran tam

  • 7/25/2019 Todos los Sistemas De Archivos

    37/42

    Hadoop tiene un componente que gestiona los archivos de gran tamque crecen por encima de la capacidad de almacenamiento de una fsica, por lo cual este componente se encarga de dividir el archivo plas diferentes divisiones entre varias mquinas, el nombre del compo

    HDFS.

    HDFS

    Es un sistema de archivos distribuidos que se encarga del almacenatravs de una red de mquinas, el cual est diseado para almacena

    gran tamao con una filosofa de escribir solo una vez y permitir mlecturas, esta filosofa encaja comnmente con aplicaciones tipo ar(web crawler).

  • 7/25/2019 Todos los Sistemas De Archivos

    38/42

    El sistema de archivos tiene la capacidad de realizar una replicacin(copias redundantes de los datos guardados en varias mquinas), coque en el caso de fallo de un nodo se utilice una copia disponible demquina, evitando as la prdida de datos y poder seguir trabajandointerrupcin perceptible para el usuario.

    Cada bloque se replica en un pequeo nmero de mquinas separadfsicamente (normalmente tres). Permitiendo que en casos de que u

    est disponible exista una copia de este bloque se puede leer desdeubicacin de una manera transparente para el cliente.

  • 7/25/2019 Todos los Sistemas De Archivos

    39/42

    HDFS implementa la replicacin utilizando el concepto de bloque dees la cantidad mnima de datos que se pueden leer o escribir en un dcaso el sistema de archivos HDFS tiene un bloque por defecto de 6unidad de tamao bsico para la particin de un archivo , siendo es

    superior al de los discos. La razn de su gran tamao es minimizar bsquedas, ya que este tamao presenta tiempos de bsqueda de bdisco inferior al tiempo de transferencia de bloque desde el disco RAM. Para mejorar la velocidad de transferencia de bloque a memodebe realizar una disposicin de los siguientes bloques del archivo e

    secuencial y no aleatoria en el disco, permitiendo por la secuencia deflujo continuo o streaming de datos hacia la memoria.

  • 7/25/2019 Todos los Sistemas De Archivos

    40/42

    HDFS tiene una caracterstica de los sistemas distribuidos contempoes la separacin de los datos de los metadatos, esto es con el fin deadministracin de almacenamiento, ya que en el caso de HDFS los bun tamao fijo y no almacenan informacin de los metadatos, lo queclculo para determinar la capacidad de bloques por unidad de discoque preocuparse por el espacio que genera la informacin de metadlos permisos de creacin, modificacin y tiempos de acceso para lorbol de directorios, entre otros, el cual se almacena en mquinas(nseparadas de los datos.

    Para realizar esta separacin de los datos de los metadatos el sistem

  • 7/25/2019 Todos los Sistemas De Archivos

    41/42

    ptiene dos tipo de nodos operativos que funcionan con un patrn maeel maestro es el NameNodes y el esclavo es el DataNodes.

    -El Namenodes gestiona y almacena la informacin sobre cada arc

    metadatos, como la ubicacin de los bloques que componen el archdatanodes, el rbol de directorios, los permisos, el nombre del archivfunciones ms, se debe tener en cuenta que los metadatos son modocupan poca memoria, por consiguiente, se busca que los metadatoestn en la memoria RAM para un rpido acceso y sincronizacin.

    -El datanodes se encargan de almacenar y recuperar bloques, ademperidicamente le informan al namenode las listas de bloques que salmacenando(sincronizacin).

  • 7/25/2019 Todos los Sistemas De Archivos

    42/42

    Oozie

    Es el motor de workflow Yahoo! Para el Hadoop, es una solucin de f

    trabajo de cdigo abierto para gestionar y coordinar los trabajos queen el Hadoop, fue diseado para flujos de trabajo complejos de Yahomecanismo fundamental para gestionar complejas cargas de trabajode datos a travs de Yahoo!.