TECNICAS Y METODOS DE INVESTIGACION DIGITAL axel



INTRODUCCIÓN

En la última década ha surgido un fuerte interés por el uso de los contenidos generados por los usuarios de las redes sociodigitales para la investigación social, lo que pone el acento en su doble función: por un lado, constituyen una fuente primaria que permite estudiar las tendencias que la opinión pública expresa, en general, en las diferentes plataformas sociales, además de que permiten comprender la compleja lógica de las plataformas sociales como nuevos medios de comunicación En este contexto emergen varios programas de investigación, dentro de los que se destacan la iniciativa de métodos digitales y la iniciativa de estudios del software . Ambas se enfocan en el estudio de objetos digitales con métodos digitales, por lo que se ubican en la intersección entre los estudios de medios y las ciencias informáticas.

En relación con análisis anteriores sobre las prácticas y entornos digitales, como la etnografía digital , estas metodologías mueven el foco de estudio de las prácticas de los usuarios a los objetos que estos producen. Además de este desplazamiento, los métodos digitales suponen la incorporación de nuevos conceptos, habilidades y técnicas de investigación. 




Una tipología de técnicas digitales

Ante el escenario heterogéneo y cambiante en el que se presentan técnicas y herramientas, no se trata de renunciar a la categorización, sino de trabajar sobre múltiples modos de clasificar instrumentalmente las técnicas digitales. En este caso, nos centraremos en la función de las técnicas en el proceso de  investigación, pero existen otras posibilidades: según la materialidad del objeto digital, las características del software que se empleará y la pertenencia del objeto a una plataforma.


El scraping como técnica de recolección de datos


El scraping es una técnica específica del medio digital que permite la recolección automática de datos en línea. Es una de las técnicas más representativas de los métodos digitales actuales, ya que posibilita la investigación basada en datos en el medio digital. Mediante esta técnica se recuperan datos crudos que, si bien están estructurados en el sitio web al que pertenecían de manera original, necesitarán de una nueva organización para poder ser leídos e interpretados y convertirse en información relevante para la investigación. Mediante la ejecución de un software desarrollado para este fin, y a partir del propósito del estudio, podremos recuperar diferentes tipos de datos: desde los que se encuentren en un informe en PDF para verterlos en una hoja de cálculo, un conjunto de imágenes publicadas en una red social, los tuits que se hayan escrito sobre algún acontecimiento o los metadatos de un conjunto de videos almacenados en YouTube.

Existen tres clases de scraping: el screen and interface scraping, el crawler scraping y el API scraping. El primero es el más antiguo; se trata de un método automático usado para extraer datos que han sido diseñados para ser vistos primariamente por humanos. El programa lee la pantalla y simula ser un humano, y colecciona los datos interesantes en listas que pueden ser procesadas de manera automática. Se basa en la extracción de datos del código HTML visualizado en las interfaces de usuario, lo que significa que los datos son formateados y personalizados para usuarios particulares.


Un ejemplo de screen scraping es el de la extensión Bulk Media Downloader, complemento montado sobre el navegador Firefox. Después de ser instalado, el usuario puede bajar todos los contenidos que ve en su pantalla y almacenarlos en su computadora. Pero como las búsquedas en las plataformas sociales y los sitios web son personalizadas, lo que el usuario recolecta es información sesgada por su experiencia.

El crawler scraping extrae la estructura de un sitio web, además de los datos que las bases de datos asociadas al sitio pueden contener. El tercer tipo de scraping, habitualmente el más utilizado, es el basado en consultas a las interfaces de programación de aplicaciones, conocidas como API (Application Programming Interfaces). En este caso, los datos se encuentran estructurados en una base de datos en función de los intereses de las plataformas que los almacenan. Por este motivo, deberemos recurrir a las API; estas consisten en un conjunto de algoritmos, funciones y procedimientos que ofrece una plataforma para ser utilizada por otro software que solicitará información. Constituyen una herramienta central en el proceso, ya que representan la capacidad de comunicación entre la base de datos de la plataforma que brinda la información y el programa que la recolecta.



Si la plataforma no habilita su API para recolectar información, no podremos obtener sus datos, al menos a través de esta. En general, las plataformas habilitan sus API para que los desarrolladores independientes creen nuevas aplicaciones para los datos, pero no para extraer información a fin de ser analizada; por ejemplo, Facebook habilita sus API para la creación de videojuegos, encuestas y aplicaciones de publicidad y marketing, pero no para la exportación de datos.


Limpieza de la base de datos

La limpieza de las bases de datos es un paso intermedio entre la recolección y el procesamiento de datos. Implica tiempo y esfuerzo, pero es la base para obtener un corpus que pueda manipularse y visualizarse correctamente. Una base de datos limpia posee una estructura de datos clara, confiable y bien organizada, de manera que podamos encontrarle sentido mediante una rápida exploración La estructura de datos se corresponde con una organización semántica. En una base de datos limpia cada columna es una variable, cada fila es una observación que contiene uno o más valores, usualmente formados por números o texto, y cada conjunto de observaciones es una tabla. El orden de una base de datos no forma parte de su estructura, pero hace más fácil explorar los datos antes de procesarlos. El orden estándar ubica en primer lugar a las variables fijas y en segundo a las variables numéricas; las variables relacionadas deben ubicarse contiguamente y las filas pueden ordenarse por la primera variable.

Existen problemas comunes en la limpieza de las bases de datos que pueden ser resueltos con los programas usuales de almacenamiento de datos o con software especializado; Open Refine (gratuito de Google), es el más usado en esa categoría.

Técnicas de visualización de datos

La producción de una visualización consiste en codificar información en un conjunto de elementos básicos como el tamaño, la forma, el color y la posición de cada uno de los ítems que la forman . El autor identifica tres elementos básicos en una visualización: un marco, una o más codificaciones visuales y anotaciones. Las codificaciones visuales son los elementos más importantes y también los más difíciles de utilizar, estos pueden ser: el alto y el ancho de los elementos, su posición, los colores y sus variaciones tonales, el área, el grosor de las líneas, entre otros.

A los efectos de las técnicas revisadas en este artículo podemos considerar que las etapas de procesamiento y visualización se combinan en varias de ellas. Esto es lo que sucede con las nubes de palabras que produce la minería de textos, con los montajes fotográficos que resultan de la analítica visual y con los grafos que elabora el AVR. En otros casos existe un software que visualiza datos, por lo general cuantitativos (pero no exclusivamente) en gráficos. Hay diferentes tipos: gráficos de barras, de líneas, de pastel, de área, diagramas de Gantt, entre otros. Los mapas que incluyen información extra geográfica y se producen con fines específicos también se consideran gráficos.

Se cuenta con varias herramientas para la elaboración de gráficos. En general, pueden desarrollarse con las herramientas gráficas de las planillas de cálculo comunes. Además de estas, el paquete comercial de Tableau Software es utilizado frecuentemente, así como la aplicación RawGraphs, diseñada por Density Design Lab del Politécnico de Milán; funciona en línea, es de código abierto, gratuita y empleada en el ámbito académico. Combina los tipos de gráfico estándar con estilizaciones basadas en el diseño gráfico de cada una de ellas.

Otro emprendimiento académico es Wrangler, diseñado por el grupo de visualización de la Universidad de Stanford, utilizado en el área de periodismo de datos; también se encuentra disponible en línea, no es de código abierto y generó un emprendimiento comercial de visualización llamado Trifacta. En cuanto a la producción de gráficos basados en modelos, la extensión para navegadores Draw.io es gratuita y de uso simple.

Conclución

Las técnicas digitales reciben diferentes modos de clasificación: según el lugar que ocupan en el proceso de investigación, en las técnicas de recolección, de limpieza, de procesamiento y de visualización; además, pueden distinguirse según el tipo de objeto a analizar: texto, imagen, video o reacciones. En la etapa de recolección de información, la técnica de scraping permite recolectar y estructurar conjuntos de datos desestructurados y formar un corpus de objetos que luego puede tratarse con una o más técnicas. Durante el procesamiento de la información, según la bibliografía analizada y los casos considerados como ejemplos de uso en este trabajo, las técnicas digitales presentadas resultan eficientes para explorar de modo cuantitativo conjuntos extensos de datos. Estas técnicas se vuelven necesarias para visibilizar las variaciones y recurrencias en los conjuntos de datos, permiten identificar patrones y tendencias a los que puede asignarse una interpretación.



Si la función fundamental de una técnica es operar sobre un conjunto de datos para extraer información de ellos, las técnicas presentadas son eficientes; aunque no todas poseen la misma capacidad de acceso y uso. De las presentadas en este trabajo, las técnicas de minería textual y las de analítica textual pueden llevarse a cabo mediante herramientas de uso simple que no necesitan mayor capacitación para los investigadores; otras, como el análisis visual de redes o la visión computada, requieren de entrenamientos específicos en el primer caso, y de trabajos interdisciplinarios con la ciencia de datos, en el segundo. Futuros trabajos podrán aportar, mediante diversos métodos al conocimiento acerca de los tipos de técnicas digitales y sus contextos de investigación en Latinoamérica.


Comentarios

Entradas más populares de este blog

INTELIGENCIA ARTIFICIAL JIMENA Y AXEL

PAGUINAS WEB VALENTINA Y KARLA

TÉCNICAS Y MÉTODOS DE INVESTIGACIÓN DIGITAL 2 BB