DSpace Colección : MDAT

DSpace Colección : MDAT https://repositorio.uisek.edu.ec:443/handle/123456789/5595 MDAT 2026-04-10T19:14:16Z Revisión sistemática y análisis de metodologías qué utilizan técnicas de minería de datos y aprendizaje automático para detección del trolling en las redes sociales https://repositorio.uisek.edu.ec:443/handle/123456789/4864 Título : Revisión sistemática y análisis de metodologías qué utilizan técnicas de minería de datos y aprendizaje automático para detección del trolling en las redes sociales Autor : Segovia Granda, Hugo Patricio Resumen : El desarrollo de las redes sociales digitales ha facilitado a las personas mejorar su relacionamiento pues han permitido compartir por estos medios historias y experiencias expresadas en frases, imágenes, videos, audios, otros, toda esta información liberada dentro de grupos virtuales; sin embargo, no todo ha sido color de rosa ya que han existido también comportamientos anómalos en estos grupos y perfiles de usuarios que incitan a la violencia, el acoso, la burla, o la desinformación; a este tipo de comportamiento se lo denomina “trolling”. Las formas de expresar el trolling pueden ser variadas y van desde una muestra de irrespeto, sarcasmo, cyberbulling o influencia negativa hacia un grupo social o una persona, pudiendo ocasionar en algunos seres humanos problemas psicológicos complejos incluso suicidios en los casos más complicados. Para contrarrestar esta realidad muchos investigadores han desarrollado estudios que permiten identificar el trolling en las redes sociales mediante técnicas de minería de datos, software especializado o inteligencia artificial. El resultado de este trabajo permite a otros investigadores identificar técnicas, modelos, métodos y algoritmos utilizados para la detección del trolling. Es este trabajo se logró determinar los algoritmos usados más frecuentemente para este fin, entre estos se nombran a Random Forest, Regression Lineal, Support Vector Machine, Naïve Bayes, Kmeans, SMO, Gradient Boost, CNN. Algo que es preciso resaltar es la complejidad que tuvieron algunos investigadores a la hora de recabar datos de fuentes para su análisis, ya que la información no es libre, sin embargo, se logró identificar que la fuente de datos más usada pasa el análisis fue proveniente de la red social Twitter. También se logró concluir que existe un avance significativo en la identificación del trolling mediante técnicas de minería de datos y aprendizaje automático, no obstante se observa que ningún modelo entrega un alto porcentaje de certeza en la clasificación del contenido de tipo trolling y para la detección de perfiles de tipo troll, quizá la poca la poca información que entregan las empresas que son dueñas de los servicios de redes sociales sea la causa, así como las diferentes expresiones semánticas que tiene el lenguaje natural en diferentes culturas y países. Descripción : The development of digital social networks has made it easier for people to improve their relationships as they have allowed them to share stories and experiences which are expressed in phrases, images, videos, audios, etc. All this information has been shared within virtual groups. However, not everything is all rosy, there are also abnormal behaviors in these groups and user profiles that incite violence, harassment, mockery or misinformation. This type of conduct is called “trolling”. Trolling can be expressed in many ways, such as, disrespect, sarcasm, cyberbullying or showing a negative influence on a group of people or an individual. This could cause psychological problems, which could even lead to suicide. To counter this reality, many researchers have developed studies that allow trolling to be identified through data mining techniques in social media, specialized software or artificial intelligence. The result of this work allows other researchers to identify techniques, models, methods and algorithms used for trolling detection. In this research, it was possible to determine the most frequently used algorithms for this purpose, among these are Random Forest, Linear Regression, Support Vector Machine, Naïve Bayes, Kmeans, SMO, Gradient Boost and CNN. Something that must be highlighted is the complexity that some researchers had when collecting data from sources for analysis, since the information is not free, however, it was possible to identify that the most used data source for the analysis was extracted from Twitter. It was also possible to conclude that there is a significant progress in the identification of trolling through data mining and machine learning techniques, however it is observed that no model provides a high percentage of certainty in the classification of trolling-type content and for the detection of trolling and troll-type profiles. It could be the limited information provided by the companies that own the social network services., as well as the different semantic expressions that natural language has in different cultures and countries. 2022-10-01T00:00:00Z Análisis para la predicción del valor de un bien inmueble en la Ciudad de Quito post pandemia https://repositorio.uisek.edu.ec:443/handle/123456789/4677 Título : Análisis para la predicción del valor de un bien inmueble en la Ciudad de Quito post pandemia Autor : Vilca Lincango, Wladimir Arsecio Resumen : El mundo siempre ha atravesado situaciones críticas que han traído grandes devastaciones consigo, es claro el ejemplo de la Segunda Guerra Mundial, evento histórico que alteró la vida y economía de varias naciones. Coyunturalmente, la pandemia de COVID 19 generó muchos efectos negativos para la humanidad, provocó el colapso del mercado global aumentado el desempleo, y condicionó la vida de miles de individuos que tuvieron que asumir una nueva normalidad, en el que el uso de la tecnología constituyó un recurso para no afectar tanto sus actividades laborales como educativas. En referencia al sector inmobiliario, muchos proyectos quedaron paralizados por falta de presupuesto ya que las ventas decayeron notablemente, así se configuró un panorama desalentador para inversionista y trabajadores, afectados por la falta de empleo. Especialistas en economía a pesar de lo sucedido, pronosticaron que la reactivación del área inmobiliaria se lograría a largo plazo. Este trabajo sitúa como principal beneficiario al sector inmobiliario, el cual mediante el desarrollo de proyectos genera inversiones importantes, así como la adquisición y venta de bienes inmuebles para el sector público o privado. El área inmobiliaria es idónea para implementar técnicas de aprendizaje automático, una de las razones fundamentales es el alto interés de personas que buscan viviendas para conocer su valor, y así direccionarse a una futura compra o venta. En correspondencia a lo referido, el presente proyecto de titulación busca realizar un análisis para el establecimiento de un método automático, a partir del uso técnicas de máquinas de aprendizaje para así predecir el valor de un inmueble en la ciudad de Quito. Debido a que en la tasación de un bien inmueble realizada por un perito calificado, se toman en cuenta distintos aspectos, entre ellos: el área (superficie del terreno) en , el área de construcción, la ubicación, el número de pisos, el número de habitaciones, el número de baños que posee el inmueble, los acabados, la antigüedad, entre otros. 22 La tasación se define como: el proceso de cálculo para la determinación de los avalúos del suelo, construcción y adicionales constructivos, de los bienes inmuebles del Distrito Metropolitano de Quito, de acuerdo a la metodología y técnicas de valuación, en el marco de lo que establece el Código Orgánico de Organización Territorial, Autonomía y Descentralización-COOTAD y Acuerdo Ministerial 029 que expide las "Normas Nacionales para el Catastro de Bienes Norma (Norma técnica de Valoración de los Bienes Inmuebles en el MDMQ, 2019, pág. 18) Los datos recolectados corresponden a las publicaciones de los bienes inmuebles en las diferentes páginas web en Ecuador dedicadas a la venta de inmuebles, los cuales se obtuvieron mediante el uso de web scraping, esta herramienta fue aplicado en páginas como son Plusvalía, Properati, Remax. Con los datos obtenidos se procedió a realizar un procedimiento de limpieza de columnas, eliminación de registros. Con el resultado de los datos extraídos y una vez aplicados el proceso de limpieza se procedió a organizar los datos por sectores y se efectuó la implementación de técnicas de aprendizaje automático como son: regresión lineal, árbol de decisión, redes neuronales, Random Forest para cada conjunto de datos. En consecuencia, al aplicar los diferentes algoritmos, la regresión lineal presentó el mejor desempeño frente a los demás modelos aplicados. Descripción : The virus named COVID-19 represents the greatest threat to our lives, since the Second World War, this virus has changed from the way people interact to the economies of world powers, since its inception COVID-19 caused global collapse In the market, unemployment increased, radical changes in business models and ways of working, a change that the world had not seen for decades. The pandemic affects the real estate sector directly, this was evidenced in the lack of investment for projects, stopped projects, drop in sales, among others. Specialists in economics predict that the area of the real estate sector and its reactivation will take place in the long term. The focus of this work has the real estate sector as its main beneficiary, this sector generates large investments in the creation of real estate projects as well as in the acquisition, sale of real estate for the public or private sector, this area is ideal for implementing learning techniques of machine (Machine Learning), one of the main reasons is high interest of people looking for homes and others their interest to find out the value to plan a future purchase or sale. In correspondence to the aforementioned, the present titling project seeks to carry out an automatic analysis for the establishment of a method, based on the use of machine learning techniques to predict the value of a property in the city of Quito. Due to the fact that in the appraisal of real estate carried out by a qualified expert, different aspects are taken into account, among them: the area (surface of the land) in square meters, the construction area, the location, the number of floors, the number of rooms, the number of bathrooms that the property has, the finishes, the age, among others. The appraisal is defined as: "the calculation process for the determination of the appraisals of the land, construction and additional construction, of the real estate of the Metropolitan District of Quito, according to the methodology and valuation techniques, within the framework of the that establishes the Organic Code of Territorial Organization, Autonomy and DecentralizationCOOTAD and Ministerial Agreement 029 that issues the "National Norms for the Property Registry" 24 The collected data correspond to the publications of the real estate in the different web pages in Ecuador dedicated to the sale of real estate, which were obtained through the use of web scraping, this tool was applied in pages such as Plusvalía, Properati, Remax. With the data obtained, a column cleaning procedure was carried out, as well as the elimination of records. With the result of the extracted data and once the cleaning process was applied, the data were organized by sectors and the implementation of automatic learning techniques was carried out, such as: decision tree, neural networks, random forest for each data set. Consequently, applying the different algorithms resulted in the linear regression with the highest performance compared to the other applied models. 2022-03-01T00:00:00Z Diseño de un modelo de business intelligence para comerciales y operativas de micro y pequeñas operación áreas empresas de turística del Distrito Metropolitano de Quito https://repositorio.uisek.edu.ec:443/handle/123456789/4675 Título : Diseño de un modelo de business intelligence para comerciales y operativas de micro y pequeñas operación áreas empresas de turística del Distrito Metropolitano de Quito Autor : Puga Cevallos, José Gabriel Resumen : En los últimos años, la actividad de la intermediación y operación turística se ha visto profundamente impactada por las tecnologías de la información y comunicación. Para el 2021, el territorio del Distrito Metropolitano de Quito cuenta con 757 establecimientos de intermediación y operación turística, de los cuales 254 empresas corresponden a la categoría de operador. El 87% de los operadores turísticos son micro empresas y el 13% son pequeñas empresas. Por otro lado, varias fuentes de información nacionales e internacionales señalan que la digitalización presenta varias barreras, pero también grandes oportunidades para aumentar la productividad de las MPEs, que podrían encontrar en la gestión de datos e información un gran apoyo para aumentar su competitividad. Los resultados de la investigación realizada en el presente trabajo sugieren que este tipo de empresas se encuentran en fases muy tempranas de digitalización. Por ello, el diseño del Modelo de Business Intelligence propuesto es una alternativa para guiar la adopción de inteligencia empresarial en las áreas comerciales y operativas, fomentando la aceleración de la digitalización y facilitando la alineación estratégica de estas organizaciones con las personas, los procesos, la tecnología y los datos. Descripción : Over the last years , the activity of intermediation and the tourist operation has been deeply impacted by information and communication technologies. By 2021, the territory of the Metropolitan District of Quito has 757 tourist intermediation and operation business , of which 254 companies correspond to the operator category . About 87% of tour operators are micro businesses and 13% are small businesses. On the other hand, several national and international sources of information point out that digitization presents several barr iers, but also great opportunities to increase the productivity of MSEs, which could find in data and information management a great support to increase their competitiveness. T the research presented in this work he results of suggest that these types of companies are in very early stages of digitization. Therefore, the design of the proposed B usiness I ntelligence Model is an alternative to guide the adoption of business intelligence in commercial and operational areas, pr omoting the acceleration of digitization and facilitating the strategic alignment of these organizations with people, processes, technology and the data . 2022-04-08T00:00:00Z Implementación de un Data Lake de los datos de uso del LMS Canvas de la Universidad Internacional SEK. https://repositorio.uisek.edu.ec:443/handle/123456789/4673 Título : Implementación de un Data Lake de los datos de uso del LMS Canvas de la Universidad Internacional SEK. Autor : Beltrán García, Verónica Estefanía Resumen : Los datos se han convertido en las nuevas minas de oro, todo en el mundo actual gira en torno a estos. A lo largo de la historia se han usado diversos medios de almacenamiento de datos: libretas físicas, diskettes, casetes, unidades de memoria, discos duros, entre otros. Sin embargo, el ritmo de crecimiento de los datos se ha elevado exponencialmente, lo cual ha generado la necesidad de cambiar la forma tradicional en la cual se los almacenaba anteriormente. Las industrias hoy cuentan con sus propias estructuras y bases de datos con gran capacidad de almacenamiento y de diferente tipo; no obstante, el mismo crecimiento de los datos ha demandado la importancia de suplir necesidades del negocio de manera flexible y rápida, lo cual ha dado paso a la incursión del Big Data y con ello de la mano la aplicación de Data Lakes los cuales se pueden implementar en diversas ramas como la educación, salud, finanzas entre otras. En este estudio se propone la creación e implementación de un Data Lake con los datos del LMS de Canvas de la Universidad Internacional SEK, el cual permita la posibilidad de almacenarlos en un único repositorio con mayor flexibilidad, sin procesarlos previamente y con la finalidad de utilizar los mismo para realizar análisis de datos, aprendizaje automático, entre otras aplicaciones. De manera general, en el presente trabajo se aplicaron los principios del Big Data con la finalidad de que los datos que actualmente se almacenan en el Sistema de Gestión del Aprendizaje (Canvas), se carguen íntegros a un directorio HDFS creado en un entorno de Hadoop para almacenarlos. Para ello se utilizó el API de conexión de Canvas por medio de Python con el objetivo de descargar las tablas del último dump, además se generaron scripts para realizar la creación de: directorios en HDFS, tablas en Hive e ingesta de los datos descargadas de manera automática; finalmente, se generó una tarea programada para que los procesos descritos se ejecuten a diario. Finalmente, como resultado del trabajo realizado la UISEK tiene implementado un lago de datos, el cual se actualiza diariamente con la información descargada del LMS de Canvas Descripción : Data has become new gold mines, and today everything turns around them. Throughout history, many data storages media have been used: notebooks, diskettes, cassettes, memory units, hard drives, among others. However, the rate of data growth has increased exponentially, which has generated the need to change the traditional way of data storage. Today industries have their structures and databases with large storage capacity and different types. However, the same data growth has demanded the importance of supplying business needs in a flexible and fast way, which has given way to Big Data's incursion and with it Data Lakes's implementation, which can be performed in many branches such as education, health, finance, and others. This study proposes the creation and implementation of a Data Lake of SEK International University’s Canvas data, which allows the possibility of storing these data in a single repository with greater flexibility, without previously data processing and to use them for data analytics, machine learning, among other applications. In general, in this work Big Data's principles were applied so that the data currently stored in Canvas are loaded integral to the HDFS directory created in the Hadoop environment to store them, for this purpose the Canvas connection API written in Python, was used to download the tables of the last dump, scripts were generated for creation of all directories in HDFS, creation of schema's tables and data ingestion be automatic; finally, a scheduled task was generated so that the described processes are executed daily. 2022-04-01T00:00:00Z Modelo de clasificación de señales EEG usando Random Forest https://repositorio.uisek.edu.ec:443/handle/123456789/4264 Título : Modelo de clasificación de señales EEG usando Random Forest Autor : Vásquez Mena, Ricardo Fabián Resumen : Emotions are one of the components of human beings that are essentials in daily activities, like interaction with other people, decision making and learning. Due to what was exposed, it is important to detect, recognize and interpret emotions using computer systems to improve communication between people and machines, which facilitates to computers to understand communication between humans. This study proposes the generation of a model which allows the classification of people's feelings, from their EEG signals. To accomplish this objective, the “brain-computer interface EMOTIV EPOC” was used, which allowed the collection of electroencephalographic information from 50 persons. The obtained information was stored in a database for the generation of a model with its respective classification analysis. To predict three moods (happy, sad and relaxed) of the signals of any person, a model was generated using Random Forest, which got accuracies of 97.21% for joy, 76% for relaxation and 76% for sadness. Finally, the model was used to generate a real-time prediction algorithm for the three emotions, which captures the person's EEG signals, then executes the generated algorithm and displays the result on the screen through representative images of each emotion. Descripción : Las emociones son uno de los componentes importantes del ser humano, siendo así una parte valiosa para las actividades diarias como la interacción con las personas, toma de decisiones y aprendizaje. Por este motivo es importante detectar, reconocer e interpretar las emociones utilizando sistemas computacionales para mejorar la comunicación entre personas y máquinas con lo que se facilitaría la capacidad de las computadoras para entender la comunicación entre humanos. En este estudio se propone la generación de un modelo que permita la clasificación de los sentimientos de las personas a partir de sus señales EEG, para esto se utilizó la interfaz cerebro-computadora EMOTIV EPOC, la cual permitió la recopilación de la información electroencefalográfica de 50 personas, a las cuales se les mostró recursos audiovisuales que ayudaron a provocar el estado de ánimo deseado. La información obtenida fue almacenada en una base de datos para la generación del modelo y el análisis de clasificación respectivo. Para predecir los tres estados de ánimo (alegre, triste y relajado), de las señales de cualquier persona, se generó un modelo utilizando Random Forest, del que se obtuvieron resultados de precisión del 97.21% para alegría, 76% para relajación y 76% tristeza. Finalmente, se utilizó el modelo para la generación de un algoritmo de predicción en tiempo real de las tres emociones, el cual capta las señales EEG de la persona, ejecuta el algoritmo generado y visualiza el resultado en pantalla mediante imágenes representativas de cada emoción 2021-08-01T00:00:00Z Modelo de clasificación de riesgo crediticio utilizando Random Forest en financiera del Ecuador https://repositorio.uisek.edu.ec:443/handle/123456789/4256 Título : Modelo de clasificación de riesgo crediticio utilizando Random Forest en financiera del Ecuador Autor : Freire López, Juan Resumen : This research focuses on Insotec, a medium-sized entity that dedicates to granting microcredits. The organization is looking forward to enhancing different areas procedures, including the credit evaluation, which is carried out manually. Currently, analysts classify risk on a case-by-case basis, and applications are approved depending on the credit rating. This process generates many drawbacks, such as high operational load and the probability of making wrong evaluations. This study proposes to enhance the risk evaluation process by creating a model based on an artificial intelligence algorithm that classifies the organization's customers as good or bad payers based on the different variables considered essential for the analysis. Furthermore, the study uses the organization's credit customer database with a historic from 2017 to 2020. This dissertation proposes creating an algorithmic model using the CRISP-DM methodology to classify the entity's clients. First, the business and the data set are understood. Second, the information is prepared within the data preprocessing phase. This step applies the outlier elimination technique. In this phase, the dataset reduces from 63,896 to 58,247 records. Afterward, the chi-square technique selects the variables with the most significant importance method, which sets eight variables for the analysis. When the dataset is ready, the CRISP-DM methodology suggests selecting the techniques most suitable for the model. In this case, the Random Forest algorithm obtains the best precision results compared against other algorithms such as neural networks and decision trees. The Random Forest model throws a precision of 97%, an error of 2.8%, and a rate of 2.1% false positives and 11.1% false negatives to predict. Additionally, the analysis implements ten models with the cross-validation method for the model evaluation phase. Finally, creating the model leads to having an additional tool, which automates the clients' classification process as good and bad payers. This automation can be used to deliver loans faster and with less risk. However, the deployment phase needs to be executed as mentions de CRISP-DM methodology states, so that the client can make the most of the knowledge obtained by the model. Descripción : Esta investigación, se enfoca en Insotec, organización que se encuentra potenciando los procedimientos de sus áreas, incluyendo la evaluación crediticia que actualmente se realiza manualmente, este procedimiento analiza caso por caso y se aprueban las solicitudes dependiendo de la calificación, esto genera muchos inconvenientes como alta carga operativa y probabilidad de cometer errores en las evaluaciones. Para mejorar el proceso de evaluación crediticia de los clientes, el estudio propone crear un modelo basado en un algoritmo de inteligencia artificial que clasifique a los clientes de la organización como “buenos” o “malos” pagadores, en función de las diferentes variables consideradas importantes para el análisis. En la creación de modelo de clasificación se utiliza la base de datos de clientes de crédito de la organización con un histórico desde el año 2017 al 2020, este conjunto de datos cuenta con 18 variables y 63.896 registros. Adicionalmente, para la implementación del modelo de clasificación se utiliza la metodología CRISP-DM. Posteriormente, se prepara la información con el preprocesamiento de datos, en este paso se utiliza la técnica de eliminación de datos atípicos, con lo cual el conjunto de datos se reduce de 63.896 a 58.247. Finalmente, se seleccionan las variables con mayor importancia con el método de chi cuadrado, en este caso son 8 variables seleccionadas. El modelo es implementado con Random Forest, el cual arroja una precisión mayor al 97%, el porcentaje de error es del 2,8%, con el 2,1% falsos positivos y 11,1% falsos negativos para predecir. Finalmente, la creación del modelo ayuda a contar con una herramienta adicional que sirve para clasificar automáticamente a los clientes como “buenos” y “malos” pagadores, lo que puede ser utilizado para entregar créditos con más rapidez y con un menor grado de riesgo. Sin embargo, este modelo necesita ser desplegado como lo indica la metodología CRISP-DM, para que el conocimiento obtenido sea aprovechado por el cliente. 2021-08-01T00:00:00Z