Please use this identifier to cite or link to this item: http://repositorio.uisek.edu.ec/handle/123456789/4673
Title: Implementación de un Data Lake de los datos de uso del LMS Canvas de la Universidad Internacional SEK.
Authors: Martínez Mosquera, Silvia Diana
Beltrán García, Verónica Estefanía
Keywords: BIG DATA
HDFS
DATA LAKE
CLOUDERA
HADOOP
HIVE
VOLCADO DE DATOS
ESQUEMA DE DATOS
CANVAS
Issue Date: Apr-2022
Publisher: Universidad Internacional SEK
Citation: CS - MSI B453im/2022
Abstract: Los datos se han convertido en las nuevas minas de oro, todo en el mundo actual gira en torno a estos. A lo largo de la historia se han usado diversos medios de almacenamiento de datos: libretas físicas, diskettes, casetes, unidades de memoria, discos duros, entre otros. Sin embargo, el ritmo de crecimiento de los datos se ha elevado exponencialmente, lo cual ha generado la necesidad de cambiar la forma tradicional en la cual se los almacenaba anteriormente. Las industrias hoy cuentan con sus propias estructuras y bases de datos con gran capacidad de almacenamiento y de diferente tipo; no obstante, el mismo crecimiento de los datos ha demandado la importancia de suplir necesidades del negocio de manera flexible y rápida, lo cual ha dado paso a la incursión del Big Data y con ello de la mano la aplicación de Data Lakes los cuales se pueden implementar en diversas ramas como la educación, salud, finanzas entre otras. En este estudio se propone la creación e implementación de un Data Lake con los datos del LMS de Canvas de la Universidad Internacional SEK, el cual permita la posibilidad de almacenarlos en un único repositorio con mayor flexibilidad, sin procesarlos previamente y con la finalidad de utilizar los mismo para realizar análisis de datos, aprendizaje automático, entre otras aplicaciones. De manera general, en el presente trabajo se aplicaron los principios del Big Data con la finalidad de que los datos que actualmente se almacenan en el Sistema de Gestión del Aprendizaje (Canvas), se carguen íntegros a un directorio HDFS creado en un entorno de Hadoop para almacenarlos. Para ello se utilizó el API de conexión de Canvas por medio de Python con el objetivo de descargar las tablas del último dump, además se generaron scripts para realizar la creación de: directorios en HDFS, tablas en Hive e ingesta de los datos descargadas de manera automática; finalmente, se generó una tarea programada para que los procesos descritos se ejecuten a diario. Finalmente, como resultado del trabajo realizado la UISEK tiene implementado un lago de datos, el cual se actualiza diariamente con la información descargada del LMS de Canvas
Description: Data has become new gold mines, and today everything turns around them. Throughout history, many data storages media have been used: notebooks, diskettes, cassettes, memory units, hard drives, among others. However, the rate of data growth has increased exponentially, which has generated the need to change the traditional way of data storage. Today industries have their structures and databases with large storage capacity and different types. However, the same data growth has demanded the importance of supplying business needs in a flexible and fast way, which has given way to Big Data's incursion and with it Data Lakes's implementation, which can be performed in many branches such as education, health, finance, and others. This study proposes the creation and implementation of a Data Lake of SEK International University’s Canvas data, which allows the possibility of storing these data in a single repository with greater flexibility, without previously data processing and to use them for data analytics, machine learning, among other applications. In general, in this work Big Data's principles were applied so that the data currently stored in Canvas are loaded integral to the HDFS directory created in the Hadoop environment to store them, for this purpose the Canvas connection API written in Python, was used to download the tables of the last dump, scripts were generated for creation of all directories in HDFS, creation of schema's tables and data ingestion be automatic; finally, a scheduled task was generated so that the described processes are executed daily.
URI: https://repositorio.uisek.edu.ec/handle/123456789/4673
Appears in Collections:Maestría en Sistemas de Información con mención en Data Science

Files in This Item:
File Description SizeFormat 
Veronica Estefania BeltranGarcia.pdf2.36 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.