La
organización de los documentos y referencias para la investigación es
importante para poder optimizar resultados y análisis de la información
recopilada. El objetivo de este ejercicio es utilizar un corpus de documentos
relacionados con la investigación doctoral y con ayuda de la herramienta Voyant -Tools generar algún
análisis sobre resultados obtenidos.
El
corpus utilizado incluye 5 documentos relacionados con el tema de mi investigación,
y comprende los siguientes documentos:
Santos, P.. Moving the Universities to the «Third Mission» in Europe,
New Impulses and Challenges in Doctoral Education. Foro de Educación,
14(21), 107-132. (2016) doi: http://dx.doi.org/10.14516/fde.2016.014.021.006
Gibbons, M., Limoges, C., Nowotny, H., Schwartzman, S., Seot, P. Trow, M,
The New Production of Knowledge, The Dynamics of Science and Research in Contemporary
Societies, SAGE
Publications, London. (2002),
Leydesdorff, L, The mutual information of university-industry-government
relations: An indicator of the Triple Helix dynamics, Jointly published by
Akadémiai Kiadó, Budapest Scientometrics, and Kluwer Academic Publishers,
Dordrecht Vol. 58, No. 2 (2003) 445.467, (2003),
Göransson,
B. & Brundenius, C., Universities in Transition: 3 The Changing Role and Challenges
for Academic Institutions, International Development Research Centre, Part 1, (2011)
Información
recolectada y su interpretación:
Con
los documentos mencionados en el corpus se generaron las siguientes gráficas, que
permiten algún análisis e interpretación.
Esta nube de
palabras generadas resalta palabras relacionadas con la investigación en tema
de universidades, conocimiento, educación, industria, y alguna relación con
modelos con la triple hélice, contribución teórica que presenta la relación, entre
universidad, gobierno e industria. Así mismo vemos palabras como innovación que
representa otra contribución teórica sobre la forma de producir conocimiento e
impactar la sociedad con esquemas como la innovación. Otras palabras como desarrollo, estudiantes,
ciencia, relaciones pueden ayudar a establecer relación de la educación en el
contexto social.
Respecto a las
tendencias, los 5 términos más utilizados son investigación, doctoral,
conocimiento, educación y universidad, lo cual relaciona claramente dentro del
corpus estos términos sobre lo que se está buscando en la relación de universidad,
gobierno e industria, así mismo se observa una tendencia bastante equilibrada
en los 5 documentos respecto de estas palabras.
Estas 5
palabras aparecen representan un patrono claramente determinado en el corpus de
estos 5 documentos, faltaría relacionar otras palabras que pueden ser
importantes e interesantes como políticas, industria que permitan ver una
relación más directa con la universidad.
Respecto
a la frecuencia de estas palabras, research 221, doctoral 171, knowledge 170,
education 162, university 162, en un total de cerca de 30.000 que representan
el corpus.
Herramientas
como Voyant Tools, permiten análisis de textos que pueden contribuir a la
investigación y a una mejor selección de referencias que enfoquen de alguna
manera los temas relacionados con los objetivos de la investigación.
Para este ejercicio en particular, se tomaron
5 documentos que relacionan alguno de los temas de la investigación y se podría
analizar más a fondo el contenido de los mismos, con las tendencias que permite
ver la herramienta, y su relación con el proyecto en general.
Este
resumen presenta la Introducción del libro
de Saldana, J. (2016)., The Coding Manual
for Qualitative Researchers , y voy a tratar de presentar algunos
ejemplos y definiciones, así como el rol de
los códigos en la investigación cualitativa; también es importante tener
algunos atributos claros en el investigador y el rol de cada método en la respectiva
codificación.
Los tres
principales propósitos del manual son: 1. Discutir las funciones de los códigos
y la codificación, 2. Tener varios métodos de codificación, 3. Tener fuentes,
ejemplos y recomendaciones para el análisis a realizar.
Todo
investigador que quiere realizar análisis cualitativo debe tener claro su
código y método de codificación para el análisis. La excelencia en la
investigación en gran parte radica en el método de codificación (Strauss, 1987,
p. 27). El autor enfatiza que hay momentos de la investigación que es
absolutamente necesaria la codificación de datos, sin embargo, también hay
puntos donde no es apropiado para el estudio. La codificación “coding”, es solo
“un camino” de hacer análisis cualitativo no es “el camino”. Este manual sirve
básicamente como un modelo de referencia para este análisis.
Algunas
definiciones que nos permiten entender y aclarar el método:
¿Que es un Código?
Un Código,
en una investigación cualitativa se puede definir como una palabra o una frase
corta que asigna un atributo a un conjunto de datos, estos datos pueden ser
resultados de entrevistas, documentos, encuestas, correos entre otros. En el
primer ciclo de codificación los datos pueden ir de una palabra a párrafos o
páginas, y aún en el segundo ciclo pueden conservar estas dimensiones.
En
semiótica, un código se relaciona con la interpretación de símbolos en sus
contextos sociales y culturales específicos, mientras que en análisis
cualitativo de datos un código
es una construcción generada por un investigador que simboliza o
“traduce” datos (Vogt, Vogt, Gardner, & Haeffele, 2014, p. 13), y
por lo tanto hay interpretación del significado.
Codificación con
patrones:
Algunas veces es posible agrupar datos por
algunos conceptos y de esta manera generar patrones que pueden compartir
atributos, lo cual también se puede utilizar, los patrones se pueden
caracterizar por, similitud, diferencia, frecuencia de ocurrencia entre otros.
Codificación con filtros lentes y
ángulos:
En esta codificación se requieres usar
la lente analítica de su investigador y cómo percibe e interpreta sus datos de
acuerdo a los filtros y desde el ángulo que se esté mirando.
La codificación como heurística
Los investigadores cualitativos codifican
sus datos durante y después de la recopilación esto como una táctica analítica,
puesto que la codificación es el análisis. Sin embargo, hay otras perspectivas
que dicen: “Codificación y análisis no son sinónimos, aunque la
codificación es un aspecto crucial del análisis” (Basit, 2003, p. 145). La
codificación es una técnica de exploración que sirve para resolución de
problemas sin algoritmos o fórmulas. La codificación siempre va en ciclos y
casi nunca se logra completar el análisis con el primer ciclo, se necesitan
como tres o cuatro para lograr generar categorías, temas, patrones y lograr
conclusiones.
Codificación
y categorización
Codificar
es organizar los datos con un orden sistemático y definido para poder
establecer categorías. Cuando se aplican los códigos a datos cualitativos, en
varios ciclos se busca agrupar, reorganizar y vincular los datos para lograr
consolidar un resultado y así tener una explicación al análisis. (Grbich,
2013). Esta consolidación logra determinar categorías que comparten algunas
características, y nos permiten realizar un análisis. A diferencia de un
análisis cuantitativo donde se calcula una media entre los datos en el
cualitativo se calcula un significado.
Este
proceso de categorización como se mencionó, anteriormente, va en ciclos y se
generan procesos de recodificación y recategorización. La recodificación puede
ocurrir con otra perspectiva utilizando de nuevo los métodos del primer ciclo,
mientras que los métodos del segundo ciclo describen aquellos procesos que
podrían emplearse durante la segunda (y tercera y posiblemente cuarta …)
revisión de datos, este sería un esquema para el análisis.
Algunas categorías pueden contener
grupos de datos codificados que merecen un mayor refinamiento en subcategorías,
cuando se consolidan categorías se llega a los temas y las teorías.
Dato à Codigo à Categoría à
Tema à
Teoría
Técnicas de codificación y diseño de los
datos
La preparación de datos para la
codificación genera más familiaridad con los contenidos y permite iniciar
algunos procesos analíticos básicos. Cuando se preparan los datos cualitativos basados
en texto para la codificación y el análisis manual (es decir, papel y lápiz),
se pueden tener otras ayudas como notas de campo y otros materiales generados
por el investigador. Además de codificar con palabras y frases cortas, nunca
pase por alto la oportunidad de “pre-codificar” (Layder, 1998) siempre
resaltando lo que pueda ser significativo y sea de atención. Es relevante codificar
utilizando un CAQDAS, Computer-Aided
Qualitative Data Analysis, que permita recuperación posterior de los códigos.
Es
importante iniciar la codificación a medida que recopila sus datos, no después
de que se haya completado todo el trabajo de campo, en este momento no
necesariamente hay precisión, pero si sirven para futuros análisis. Se pueden
tener en cuenta algunas preguntas como: ¿Qué hace la gente? ¿Qué están tratando
de lograr? ¿Qué medios y / o estrategias específicas utilizan?, ¿Qué
suposiciones están haciendo? Para mencionar algunos ejemplos. También se debe tener
en cuenta las cantidades de datos y/o códigos cualitativos, por si se quieren transformar en algún análisis estadístico.
Para construir
su libro de códigos es necesarios utilizar un programa CAQDAS – Computer-Aided
Qualitative Data Analysis, que le permita mantener su lista, y utilizarla en
varios momentos. Esta tarea se puede realizar de forma manual o electrónica,
una vez se logra la experiencia con los programas. Se deben conocer sus configuraciones
y utilizar sus opciones de tal forma que se pueda optimizar el uso de la
herramienta, y de esta manera asegurar la confiabilidad de los datos. Con las
herramientas seleccionadas se logran consultas más elaboradas sobre los datos y
por supuesto es una ventaja sobre la búsqueda manual. Para la codificación
existen también dos formas de realizarla, se puede realizar el proceso “solo” o
conformar equipos y compartir diferentes miradas sobre los datos y la
codificación lo cual puede llevar a mejores análisis y resultados.
Sin entrar
en detalle es importante contar con algunos atributos personales necesarios para el proceso de codificación: 1.ser
organizado con los datos, 2.ser perseverante y constante, 3. Ser capaz de
lidiar con ambigüedad en los datos, 4. Ser flexible sobre los datos, 5. Tener
creatividad sobre la codificación, 6. Ser rigurosamente ético sobre sus datos,
y 7. Tener un vocabulario extensivo que le permita definir categorías diversas.
Algunas críticas en contra de la codificación han sido filosóficas y otras
metodológicas. Saldana en su manual referencia algunas de éstas. La
codificación intenta ser objetiva, esto podría ser una discusión extendida
sobre los supuestos ontológicos, epistemológicos y metodológicos de la
investigación. La codificación es
mecanicista, instrumentalista y te aleja de tus datos. Si no existe una buena
codificación, te alejas del significado de los datos. La codificación no es más
que contar las ocurrencias de los códigos y esto sirve para medir frecuencia de
ocurrencias. La codificación es “peligrosa”,
“violenta” y “destructiva”, no entiende Saldana estas
caracterizaciones a la codificación y va totalmente en contra de esto y
seguramente de lo malos codificadores. Se califica la codificación como método
obsoleto para el análisis cualitativo de datos, llevando mas de medio siglo,
las metodologías y herramientas ciertamente han cambiado, pero el proceso es el
mismo.
Termina Saldana este capítulo “comparando la codificación con un arte, una
artesanía, se debe atender el arte y también la artesanía de lo que hacemos”
para lograr el éxito.
Mi
investigación para el doctorado tendrá alto contenido de datos cualitativos,
posiblemente contando con algunos datos cuantitativos. Para el análisis
cualitativo seguramente podré explorar un poco más el trabajo con códigos y
codificación.
En este proyecto se pretende realizar
una pequeña investigación preliminar para consecución de datos utilizando
herramientas avanzadas para este fin. Los datos se obtienen en este caso con la
red social Twitter; para el caso de mi investigación relacionada con
universidades, sus funciones, misiones, y relaciones con su entorno, la idea es
buscar información a través de Twitter que permita realizar algún análisis
relacionado con el propósito de la investigación y poder generar algunas
conclusiones.
Las
posibles preguntas previas a la investigación serían:
¿Qué tanto se relacionan las universidades con
otros actores o con las mismas universidades, a través de Twitter?
¿Tienen alguna incidencia variables como el
tipo de universidad (pública- privada), numero de programas, número de
estudiantes, entre otros?
Como
datos para este proyecto se toman los siguientes:
Se utiliza la red social Twitter como fuente de datos
Se toma la Base de SNIES de las universidades de
Colombia y de aquí se extraen únicamente las certificadas en calidad, que son 60.
Se investigan los “user name” y “user id” de twitter
de este rango de Universidades
Se crea un “bin” en el TCAT con los tweet-id de las
universidades certificadas en calidad.
De este “bin” se obtienen 1621 registros que contienen
tweets de las universidades.
Se investigan el número de estudiantes de cada una de
estas universidades
Se toma del SNIES el número de programas de cada Universidad.
Se crea la matriz con las variables que se muestran en
la misma, tomadas del full-export de twitter más algunas definidas en
correlación con los tweets.
Se generan tres data set con la siguiente información:
Información sobre los TW posteados por las
universidades acreditadas en Colombia en el intervalo definido (feb 25 a mar 6
de 2020), identificando cada en la red TW, cuantificando variables como número
de TW, menciones, seguidores, amigos y favorito. Se clasifican como tweet y
re-tweet (0/1) (Export)
Información sobre los destinatarios de las menciones o
RT bajo una clasificación definida 1 interno, 2 otras
universidades acreditadas, 3 3 entidades gubernamentales, 4 medios de
comunicación, 5 universidades no acreditadas Colombia, 6 universidades fuera de
Colombia, 7 otras entidades, 8 otros/personas
Información base de las universidades certificadas en
Colombia, que incluye la naturaleza jurídica, número de estudiantes y programas
ofrecidos, tomada del SNIES a la cual se le adiciona la información del número
de TW, seguidores, amigos y favoritos, así como la clasificación de los
destinatarios de los TW o RT definida
La definición de cada variable como independiente o
dependiente, se realizó de acuerdo con el siguiente criterio:
Se consideran independientes las variables relacionadas
con la estructura universitaria, independiente de la operación de la red de Twitter
Se consideran dependientes las variables que dan
cuenta del tipo y número de relaciones que cada universidad tiene con otros
actores de su entorno a través de la red TW
Se anexan las Tablas correspondientes.
No se incluye en este proyecto análisis de contenido de tweets
Se caracterizaron las
universidades acreditadas en Colombia por el número de TW o RT generados
durante el período de análisis, encontrándose que 35% de ellas (21) no
generaron ningún TW o RT en el período analizado; de este grupo el 38% son
universidades públicas y 62% privadas.
Nro. TW o RT
por Universidad
Nro. De
Universidades
%
0 TW o RT
1
21
35.0
De 1 a 15
25
14
23.3
De 16 a 30
50
13
21.7
De 31 a 50
100
9
15.0
De 51 y más
3
5.0
Total
60
100.0
3.1
Nro. TW o RT por
Universidad
Se caracterizaron las universidades acreditadas en
Colombia, por naturaleza jurídica, con las variables de estudiantes, programas,
el número de TW, seguidores y amigos. Se generaron indicadores de TW o RT por
1000 estudiantes y el número de seguidores por estudiante y favoritos por
seguidores. Se destaca que, si bien los estudiantes atendidos por las
universidades públicas analizadas corresponden al 67%, los TW publicados por
estas universidades corresponden solamente al 29% del total de TW, esto genera
una diferencia importante en el indicador de número de TW o RT por 1000
estudiantes que es cinco veces mayor en las privadas que en las públicas (4.06
vs 0.82)
Valores
Pública
Privada
Total general
Pública
Privada
Nro instituciones
19
41
60
32%
68%
Nro estudiantes
585,077
281,872
866,949
67%
33%
Nro programas
2,717
4,298
7,015
39%
61%
Nro TW o RT
479
1145
1624
29%
71%
Suma de Nro. Max favoritos
28,001
105,978
133,979
21%
79%
Suma de Nro. Max amigos
9,043
43,132
52,175
17%
83%
Nro máximo amigos
617,070
699,282
1,316,352
47%
53%
TW/RT por estudiante (x 1000)
0.82
4.06
1.87
Estudiantes por programa
215
66
124
Seguidores por estudiante
0.0
0.4
0.2
Favoritos/Seguidores
32.3
40.7
38.9
Para
las universidades con por lo menos un TW o RT en el periodo de análisis, se
calcularon indicadores de tendencia central del número de TW o RT, seguidores y
favoritos, encontrándose una alta dispersión de los datos
TW/RT
Nro. Max
seguidores
Nro. Max
favoritos
Promedio
43
34,641
3,526
Mediana
32
17,178
1,864
Moda
31
Desv. Estandar
33.2
56,733.8
4,177.4
Mínimo
2
1,401
82
Máximo
137
327,156
16,862
Coef. Variación
0.78
1.64
1.18
Varianza
1,103
3,218,723,262
17,450,455
En relación con las menciones y RT se clasificaron por tipo de destinario de manera desagregada por naturaleza jurídica de la universidad. Se destaca que la mayor proporción de menciones o RT está destinada a grupos de la misma universidad (38,4% en el total de universidades, mayor proporción en las públicas (46% y 38% privadas). Otro destinatario importante son las entidades del gobierno, 12,7% del total y 18% en las públicas y 11% en las privadas.
Si bien se trata de
un data set que cubre los TW generados durante un periodo de 10 días, se observan
diferencias importantes en el comportamiento de las universidades. Se destaca
que 35% de las universidades acreditadas en Colombia no generaron TW en dicho
periodo. Sería importante ampliar el periodo de observación con el fin de
revisar la consistencia de los datos y determinar la importancia que le dan
estas entidades Twitter a este medio para relacionarse en la sociedad en
general.
4.1
De
encontrarse que un número importante de universidades no utiliza este medio,
cabe preguntarse ¿por qué no utilizan este medio y a
través de que medios se relacionan con las comunidades universitarias?
La naturaleza
jurídica de las universidades afecta los resultados de los indicadores
analizados, se observa una mayor generación de TW o RT por cada 1000
estudiantes en las universidades privadas que en las públicas. En este contexto, es importante analizar a
futuro las razones que llevan a que el número de mensajes de TW o RT por cada
1000 estudiantes sea 4 veces mayor en las privadas que en las públicas.
4.2
¿Es un de tema de brecha digital? ¿acceso
a recursos, educación, ingresos?
De analizarse el
contenido de los mensajes con herramientas como análisis de sentimientos, se
podría caracterizar el tipo de mensajes que las universidades envían por este
medio y evaluar:
4.3
¿podría este medio de comunicación
ser una herramienta que permite generar valoraciones de la vinculación de las
universidades con su entorno de desempeño?
En este proyecto se pretende realizar
una pequeña investigación preliminar para consecución de datos utilizando
herramientas avanzadas para este fin. Los datos se obtienen en este caso con la
red social Twitter; para el caso de mi investigación relacionada con
universidades, sus funciones, misiones, y relaciones con su entorno, la idea es
buscar información a través de Twitter que permita realizar algún análisis
relacionado con el propósito de la investigación y poder generar algunas
conclusiones.
Las
posibles preguntas que tengo serían:
¿Qué tanto se relacionan las universidades con
otros actores o con las mismas universidades, a través de Twitter?
¿Tienen incidencia variables como el tipo de universidad (pública-
privada), numero de programas, numero de estudiantes, entre otros?
Como
datos para este proyecto se toman los siguientes:
Se utiliza la red social Twitter como fuente de datos
Se toma la Base de SNIES de las universidades de
Colombia y de aquí se extraen únicamente las certificadas en calidad, que son 60.
Se investigan los “user name” y “user id” de twitter
de este rango de Universidades
Se crea un “bin” en el TCAT con los tweet-id de las
universidades certificadas en calidad.
De este “bin” se obtienen 1621 registros que contienen
tweets de las universidades.
Se investigan el número de estudiantes de cada una de
estas universidades
Se toma del SNIES el número de programas de cada Universidad.
Se crea la matriz con las variables que se muestran en
la misma, tomadas del full-export de twitter más algunas definidas en correlación
con los tweets.
Se generan tres data set con la siguiente información:
Información sobre los TW posteados por las
universidades acreditadas en Colombia en el intervalo definido (feb 25 a mar 6
de 2020), identificando cada en la red TW, cuantificando variables como número
de TW, menciones, seguidores, amigos y favorito. Se clasifican como tweet y re-tweet
(0/1)
Información sobre las universidades certificadas en
Colombia, teniendo la naturaleza jurídica, número de estudiantes y programas
ofrecidos, así como el número de TW, seguidores, amigos y favoritos.
Información sobre los destinatarios de las menciones o
RT bajo una clasificación definida 1 interno, 2 otras
universidades acreditadas, 3 3 entidades gubernamentales, 4 medios de
comunicación, 5 universidades no acreditadas Colombia, 6 universidades fuera de
Colombia, 7 otras entidades, 8 otros/personas
La definición de cada variable como independiente o dependiente, se realizó de acuerdo con el siguiente criterio:
Se consideran independientes las variables relacionadas con la estructura universitaria, independiente de la operación de la red de Twitter
Se consideran dependientes las variables que dan cuenta del tipo y numero de relaciones que cada universidad tiene con otros actores de su entorno a través de la red TW
Se anexan las tablas:
Tabla export
Tabla Univ
Tabla mention – relaciones
No se incluye en este
proyecto análisis de contenido de tweets
En Colombia, las (IES) – Instituciones de Educación Superior cumplen con varios objetivos misionales que trascienden la formación de profesionales, por ejemplo, la Javeriana, en su Planeación Universitaria 2016-2021, establece como objetivos misionales el ejercicio de la docencia, la investigación y el servicio con excelencia, como universidad integrada a un país de regiones, con perspectiva global e interdisciplinar.
En este sentido hay contribuciones teóricas que han resaltado los cambios en las maneras tradicionales de producir conocimientos y la forma en que estos pueden impactar la sociedad, particularmente a través de la innovación. El argentino Jorge Alberto Sábato propone en la década de los 60, una estructura triangular entre la industria, la infraestructura científica y tecnológica y el estado como modelo para el desarrollo de la política de ciencia y tecnología en América Latina (Sábato, Botana 1968). El sistema de innovación fue propuesto como un modelo funcional que motiva la innovación como el resultado de interacciones entre distintos tipos de actores (Lundvall, 1993), por su lado, el modelo de la triple hélice (Leydesdorff y Etzkowitz, 1993) resalta el papel de las organizaciones formales, y las relaciones entre los actores para que el conocimiento y la información incidan en el desarrollo económico y social de los países.
Las anteriores contribuciones ayudan a modelar la relación de la universidad con su entorno desde sus funciones de formación y de investigación y producción de conocimiento, pero que sucede con la tercera misión de la IES, donde ésta se enfoca en el servicio y en la contribución social al país.
El objetivo principal de mi investigación se focaliza en esa tercera misión de las IES, y en particular de la Pontificia Universidad javeriana, con el fin de formular una propuesta de modelo que emerja de las diversas formas en que las universidades colombianas se relacionan con su entorno, que permita valorar las actividades en la heterogeneidad de sus impactos, beneficiarios y características.
Esto permitirá reconocer las distintas actividades que se realizan desde la universidad e impactan la sociedad, además de aquellas que ya se han popularizado y socializado.
En este proyecto se pretende realizar una pequeña investigación preliminar para consecución de datos utilizando herramientas avanzadas para este fin. Los datos se obtienen de Media Cloud o de la red social Twitter; para el caso de mi investigación relacionada con universidades, sus funciones, misiones, y relaciones con su entorno, la idea es buscar información a través de Twitter que permita realizar algún análisis relacionado con el propósito de la investigación y poder generar algunas conclusiones.
El éxito de la investigación estará siempre en los datos, en la naturaleza de estos, en los esquemas de recolección y finalmente en los métodos de análisis que se escojan. Walliman (2011), en su libro nos presenta las formas en que encontramos los datos, estos se encuentran en dos formas, datos primarios, y datos secundarios. Los primeros son directos de la observación y los segundos llevan interpretación. Existen cuatro tipos de datos primarios de acuerdo con su esquema de recolección, por medida, por observación, por interrogación y por participación. Los datos primarios son los más confiables. Los datos secundarios, dependen de las fuentes para su confiabilidad.
Los datos base para este proyecto son datos primarios tomados a partir de participación en la red twitter con base en la creación de un .bin. A partir de estos primarios va una interpretación para generar un análisis lo cual los convierte en datos secundarios. En este caso se toman datos de una semana y mas adelante explico con cuál herramienta se recolectan los datos.
Adicionalmente está el método de análisis de los datos, Hernández Sampieri (2010), plantea los métodos de análisis de los datos, métodos cuantitativos y métodos cualitativos. Según Sampieri los fenómenos actuales de las ciencias son tan complejos que requieren métodos mixtos, cualitativos y cuantitativos.
Para este proyecto se utiliza inicialmente método cualitativo por el tipo de herramientas y de muestra que se obtiene. Los datos provienen de redes sociales, son datos no estructurados, necesitan interpretación. Posteriormente el análisis puede llegar a dar unos elementos cuantitativos producto de este, estos datos se refieren a conteo de palabras, de mensajes, usuarios que claramente son cuantitativos.
Como herramientas para este proyecto se utiliza TCAT (Twitter Capture and Analysis Toolset), que es un conjunto de herramientas para recuperar y recoger tweets de Twitter y analizarlos de varias formas. TCAT fueron desarrolladas por investigadores University of Amsterdam con el propósito de apoyar el avance de los métodos digitales de investigación. (Guia de TCAT).
Con la versión que cuenta la Javeriana DMI-TCAT instalada en servidores de Caoba y el laboratorio de Big Data (facultad de Comunicación + Ingeniería), para uso académico de estudiantes y profesores, se creó la base para generar los datos para este proyecto. (Guia de TCAT).
Para el análisis se tomó desde Admin, creando un “bin” y algunas palabras seleccionadas, con los datos iniciales se realizan algunos “queries” y exclusión de algunas palabras para refinar un poco las búsquedas.
Los datos recolectados se descargan en archivos CSV para su posterior análisis. Se utilizaron otras herramientas externas a TCAT para el análisis y las estadísticas, Open Refine, Excel y para el análisis de redes se hizo con Gephi.
Inicialmente se generan un número de datos considerable que pueden ser la muestra, pero con un análisis rápido se ven datos que no aportarían al objetivo; por lo tanto, se realizan unos filtros sobre los tweets que me permitan tener un data set más afinado.
Se realizan filtros por país, incluyendo solo Colombia y posteriormente excluyendo Cuba para llegar a datos que estén más de acuerdo con el objetivo.
Se crea inicialmente un “bin”, desde Admin, utilizando TCAT de la Universidad Javeriana, y este “bin” se crea con las siguientes condiciones:
Fecha inicio: 10 02 2020
Fecha fin: 17 02 2020
El “bin” se crea con algunas palabras claves que ayuden a recibir tweets que sean de utilidad para el proyecto de investigación. Estas palabras fueron:
Universidades
Misión
Extensión.
Para estas palabras claves se presentaron 71.000 tweets, como base de la recolección planteada.
Una primera revisión general de los datos muestra datos de universidades en el mundo por lo cual se hace un filtro solamente para Colombia. Este filtro deja un conjunto de 2.220 datos. Iniciando algún tipo de análisis se observan muchos datos de Cuba con lo cual se refina la búsqueda a excluir a Cuba.
Por lo tanto, la muestra para el análisis se determina como:
Palabras claves: universidades/misión/extensión
Query: Colombia
Excluir: Cuba
Total de tweets: 1.354
Las siguientes Gráfica 1a y Grafica 1b muestran resultados de las búsquedas ya filtradas.
Grafica 1a – resultados de TCAT
Grafica 1b – resultados de TCAT
3.1 Estadísticas:
El conjunto de estadísticas de datos obtenidos se muestra en la siguiente gráfica:
Grafica 2 – estadísticas
Las estadísticas muestran, lo siguiente:
Los 1354 tweets se concentran en la mitad del período, adicionalmente el número de re-tweets es de 963 que equivale al 71%.
El número de tweets con links, hashtags, o menciones no es considerable en la muestra y no llega al 1%.
El número de replies es de 226 que corresponde al 16% de la muestra.
Por el contrario, el número de tweets con menciones es de 1249 que corresponde al 92%.
Se extraen como datos para análisis:
Export de tweets
Hashtags
Id de usuario
Número de twwets
Export de la red para ser llevada a Gephi
Con esta base se obtiene lo siguiente datos, que se ven reflejados en las gráficas de BATABASE.IO, y las tablas correspondientes.
De acuerdo con el planteamiento de los datos recolectados se puede generar algún análisis.
Realizando alguna mirada sobre los tweets producto de esta búsqueda, se observa que la mayoría se refieren a situaciones de orden público que se presentó durante la semana de la investigación. Por lo tanto, los resultados son de alguna manera inesperados frente a lo que se pensaba.
En la Gráfica 3a – Fechas de recolección – feb 10 – feb 16, User-id – usuarios que realizaron tweets
Grafica 3a -usuarios y tweetts
Gráfica 3b – Fechas de recolección – feb 10 – feb 16, User-id – usuarios que realizaron tweets
Únicamente 13 usuarios realizan 3 tweets, un usuario 4 tweets y un usuario 5 tweets.
No se muestra en la tabla, pero 59 usuarios realizan 2 tweets y el resto uno o ninguno.
El número de re-tweets de estos usuarios no es representativo, llama la atención el número de menciones del usuario “sergioaraujoc” que llega a 248. Este usuario con 3 tweets reúne una gran cantidad de menciones que se observan posteriormente en los diagramas de red.
Dentro del análisis de usuarios cabe resaltar este usuario “sergioaraujoc” pues presenta en el data set,
En la Gráfica 4 – análisis de intervalo de tiempo, se muestra el comportamiento del número de registros por fechas de la muestra, y se ve una clara disminución a partir del 13 de febrero que puede deberse a la misma situación de orden, ya mencionada. Esta misma situación se aprecia en la gráfica de estadísticas de este data set.
En la Gráfica 5, se muestra que el número de tweets como ya se mencionó, el máximo es 5, teniendo una tendencia el 1 y el 0, sobresale el usuario “sergioaraujoc” quien con 3 tweets reúne una gran cantidad de menciones que se observan posteriormente en los diagramas de red. Los usuarios que se pueden identificar de universidades, en este data set tienen pocos tweets y adicionalmente no aparecen todas.
En la Gráfica 6a, se presenta la frecuencia de “url”, la cual oscila entre 1 y 7 y estos se refieren básicamente a los “url´s” de la Gráfica 6b, los cuáles muestran claramente que se refieren a noticias de orden público, incluso uno de estos url se refiere a un tema de universidades latinoamericanas pero referente a un tema de denuncia judicial. El “url” de mayor frecuencia – 7, se refiere a laguna situación del esmad, que ayuda a concluir la situación de orden.
Para el análisis de los tweets se tiene una vista de frecuencia de palabras donde se puede analizar algo el tipo de lenguaje utilizado
En la Grafica 7a, podemos observar la frecuencia de palabras en el data set base de la recolección, en su representación gráfica por tamaño de ocurrencia de palabras.
En una mirada general resaltan palabras como “universidades”, “Colombia”, “estado”, “pueden”, y algunos conectores como “para” “que” y verbos como “son” “pueden” “dejar”, que tendrían algún valor para mi objetivo, pero sus complementos son palabras como “armas” “violar” “eln” lo cual nos lleva a temas de orden público.
Gráfica 7a – conteo palabras y su representación
En la Gráfica 7b de DataBasic, se aprecia el correspondiente conteo de palabras como “universidades” – 1428, “Colombia” – 450, “policía Colombia” – 439, “estado” – 434, los bigrams y trigrams de esta gráfica nos muestran resultados como “la autonomía universitaria”, “envuelven la policía Colombia”, “la policía Colombia”, que reflejan situaciones de orden público.
Utilizando la estadística de menciones, se tienen 590 menciones y 969 re-tweets. En esta vista se tienen 373 te-tweets del usuario “sergioaraujoc”, el usuario “contagioradio 1” tiene 98 re-tweets. El usuario “WRadioColombia con 255 retweets.
Algunas menciones de 40 para “policía nacional”, “el colombiano” con 30 y aparece un usuario “egarciarujes” con 28 re-tweets y el usuario “CristinaRevolt” con 42. Estos son los valores más representativos lo cual lleva a una dispersión aún mayor de la red.
En la Gráfica 8a , se pueden apreciar los usuarios más representativos del data set, por número de menciones y/o re-tweets. Se puede observar la concentración en unos pocos usuarios.
Gráfica 8a – usuarios más representativos
Los usuarios de las universidades también tienen su presencia en este data set, 68 menciones.
Gráfica 8b – usuarios de universidades
Sin embargo, su representación es muy baja frente a otros usuarios, teniendo en esta gráfica anterior, Gráfica 8b, todos los usuarios de universidades. Sin embargo, no hay tweets de estos usuarios
El cuento de que la autonomía universitaria da para que universidades sean un bastión y guarida del terrorismo, que me lo envuelvan. La @PoliciaColombia y las @FuerzasMilCol no pueden tener territorios vedados. Son las armas de la democracia. La capacidad cohercitiva del estado
1228431452393680901
1581715856
2020-02-14 21:30:56
sergioaraujoc
Ese cuento de que la autonomía universitaria da para que las universidades sean bastión y guarida del terrorismo, que me lo envuelvan. La @PoliciaColombia y las @FuerzasMilCol no pueden tener territorios vedados. Son las armas de la democracia. La capacidad coercitiva del estado
Estos dos tweets del usuario “sergioaraujoc”, son los que concentran las RT- 373, indicadas anteriormente y por lo tanto concentran la red. Claramente se refiere a algún comentario que genera situaciones de respuesta.
1229206119874269186
1581900551
2020-02-17 0:49:11
RivasRegalOne
Que buena Noticia, las mayoría de Universidades Colombianas inaugurarán sus Regionales en Florencia, en Puerto Carreño, en Puerto Inírida, en Mocoa, en Mitú, en Yopal y en San José del Guaviare. Bien.
1227967206891433984
1581605171
2020-02-13 14:46:11
RankiaColombia
Mejores Universidades Virtuales en Colombia https://t.co/jnO0h5BeMz
1228027328078471169
1581619505
2020-02-13 18:45:05
foris
Experiencias de Universidades en Colombia con respecto al éxito estudiantil. https://t.co/QHkQuLs8qu #Colombia #StudentSuccess #Retención #Foris
Estos tres tweets mencionan situaciones importantes de las universidades en Colombia, pero las menciones y seguidores o RT son mínimos, y no se ven en las redes.
1228803076804534272
1581804458
2020-02-15 22:07:38
Daniela_A_Gallo
El caso de TODAS las universidades de Colombia, si quienes estudiamos somos la minoría y no tenemos acceso tan evidente y sencillo a atención mental, ¿cómo será para el resto de los jóvenes?
Este tweet puede ser una solicitud a las universidades por una necesidad de atención mental, lo miso son tweets que no se ven representados en la red.
Docentes de universidades públicas denunciaron un montaje judicial que se estaría creando en su contra por promover pensamiento crítico en Colombia https://t.co/eNTWpb0WTo https://t.co/vOgHFa6J1m
1228304131254710272
1581685500
2020-02-14 13:05:00
Contagioradio1
“No vamos a dejar que acallen al pensamiento crítico en Colombia” docentes de universidades públicas denunciaron que serían víctimas de un montaje judicial https://t.co/eNTWpbixKW
1227565886451671040
1581509489
2020-02-12 12:11:29
carrique6181
¿Por qué es tan polémica la propuesta de enviar fuerza pública a las universidades? https://t.co/hfLjxrYzBK vía @elcolombiano
1227686078200590338
1581538145
2020-02-12 20:09:05
Daniel_VasquezT
En Colombia las universidades públicas se volvieron un santuario para los crimínales. La Policía no puede actuar. En Medellín casi impactan un bus con un explosivo https://t.co/fZvp5QzE9N
1227952619341127680
1581601693
2020-02-13 13:48:13
JESUSLADEUTH
Quintero estrenó protocolo de reacción ante explosivos en las universidades via @elcolombiano móvil https://t.co/nd547OLdbO
Claramente estos tweets, son situaciones de orden público y de quejas hacia las universidades públicas. De estos tweets anteriores, el usuario “contagioradio 1” generó 98 RT con este twwet, algo que representa un poco más en la gráfica.
Para centralidad de la red, e identificación de comunidades/clusters, se utiliza la modularidad como medida de la estructura de la red. Sirve para mirar el agrupamiento de los nodos. Se utilizó una Resolución de 5.0 con una modularidad resultante de 0.769. Grafica 9.
Sobe los algoritmos utilizados en el análisis de red, Page rank, para la medición de la importancia de cada nodo en la red, se asignó una probabilidad de 1.0 y un Epsilon de 0.001. Gráfica 10.
Sobre el data set se utilizó algoritmo Page-rank, para centralidad de la red, así mismo y para la identificación de comunidades/clusters, se afinó la Modularidad. Para la distribución de la red se utilizó el algoritmo Force atlas 2. Gráfica 13, muestra los parámetros de este algoritmo.
Para el posicionamiento de los nodos con respecto a los otros se utilizó el algoritmo Force atlas 2, se aplica una reducción de la dispersión y una gravedad para acercarlos.
Parámetros utilizados:
En las siguientes graficas se muestran los grafos y los respectivos parámetros asignados en cada unos de los algoritmos descritos anteriormente.
Modularity Report
Parameters:
Randomize: On Use edge weights: On Resolution: 5.0
Results:
Modularity: 0.769 Modularity with resolution: 4.647 Number of Communities: 74
Gráfica 9 – Modularidad
PageRank Report
Parameters:
Epsilon = 0.001 Probability = 1.0
Results:
Gráfica 10 – Page rank
Con base en algunas gráficas de red en Gephi, que permiten generar análisis claramente la red es bastante dispersa, en su mayoría. Se presenta una concentración importante la cual se observa en la Gráfica 11, alrededor del usuario “sergioaraujoc”, quien tiene registrados 3 tweets y a partir de estos genera esta gran cantidad de menciones.
Gráfica 11 – Grafica de red teniendo en cuenta los 1354 resultados
En la Gráfica 12a y 12b,, se observa una pequeña concentración (tono fucsia) que se refiere a los usuarios de las universidades que aparecen en la muestra. Se concentran en un punto, pero sigue siendo disperso el resto de los usuarios.
Grafica 12a – muestra de una concentración en fucsia que se refiere a las universidades
Grafica 12b – detalle de la concentración fucsia que son las universidades
La dispersión de la red es más clara en la Gráfica 13
Gráfica 13 – muestra la dispersión de los datos
El análisis general, realmente no aporta a la investigación, puesto que la intención de obtener tweets de las universidades o de lo que se pide a las universidades no se logró con esta muestra. Básicamente se concentró la muestra en algunos tweets generados por una situación de orden público que no era realmente el propósito. Pero se lograron algunos análisis sobre el data set generado.
De acuerdo con Rogers (2013), es importante tener claro cómo conseguir la data y como analizar los objetos digitales, hyperlinks, tags, search engine results, archived websites, social networking sites profiles, Wikipedia edits.
Por lo tanto, como conclusión al ejercicio, se deben tener en cuenta varios elementos precisos al momento de tomar las muestras de datos que se van a requerir. Para el caso de recolección de datos en redes sociales es importante tener conocimiento de las formas y esquemas para esta recolección, dado que es el insumo principal para el análisis.
Las investigaciones tienen algunas limitaciones con los datos tomados de redes sociales, puesto estos pueden ser inestables y no siempre ser permanentes; adicionalmente las herramientas pueden restringir los textos, y los datos se toman en determinados intervalos de tiempo que pueden también restringir la investigación. Rogers (2013).
Cómo conseguir la data y como analizarla, y de donde tomarla, son temas importantes a tener en cuenta para estas investigaciones. También hay que considerar que los datos de las redes son datos no estructurados y adicionalmente llevan la interpretación de quien está enviando el mensaje, lo cual significa que son datos cualitativos, e implica un mayor análisis de su contenido para llegar a mejores conclusiones.
Surgen algunas preguntas cuando nos enfrentamos a los medios sociales y a la recolección de datos a través de estas, ¿cómo abordar la investigación en internet?, ¿Cómo enfocar los medios?, ¿Que herramientas usar?, ¿Como definir de acuerdo con la investigación las preguntas anteriores?
De acuerdo con el objetivo planteado en este documento, no se logró recolectar datos que ayuden a revisar la relación de las universidades, con su entorno en todas las funciones que éstas desempeñan.
Para mí trabajo fue importante aprender a recolectar datos de redes sociales que me permitan posteriormente analizar y generar conclusiones.
Pienso que debo investigar más como las universidades se pronuncian a través de Twitter para lograr recolectar la información que realmente me pueda servir. Para esta investigación, sería importante contar con usuarios de las universidades, también a través de los portales y la forma en que las universidades se manifiestan en las redes sociales, en twitter principalmente.
Como un ejercicio siguiente me gustaría crear un “bin” con temas más precisos y búsquedas más alineadas con el propósito de mi investigación. Para este fin he pensado en algunas preguntas que me podrían servir para establecer resultados más afines a mi proyecto.
Las posibles preguntas que tengo serían:
¿Cuál ha sido la historia de las relaciones de la comunidad con otros actores a través de twitter? esta comunidad pueden ser las universidades o más precisamente la Javeriana.
¿Qué se le pide a la Javerana a través de twitter?
¿Qué dice la Javeriana a través de twitter?
¿Con quién y cómo se relaciona la Javeriana a través de twitter?
¿Cómo valorar la relación universidad entorno a través de twitter?
Y para finalizar pienso que es importante continuar aprendiendo de estas herramientas robustas que pueden permitirme generar análisis interesantes e importantes para mi investigación.
Fue una excelente experiencia frente a otro tipo de datos y los resultados que se pueden llegar a obtener.
Hernández Sampieri, R., Fernández Collado, C., Baptista Lucio, P. (2010). (5a Edición). “Capitulo 17: Los métodos mixtos.”
Leydesdorff, L. y Etzkowitz, H. (1996). Emergence of a Triple Helix of University- Industry-Government Relations. Science and Public Policy, 23(5), 279-286.
Rogers, R. (2013). “Introduction: Situating Digital Methods” y “The End of the Virtual: Digital Methods.” Digital Methods. Cambridge, MA: The MIT Press. pp 1-38.
Sábato, J. A. y Botana, N. (1968). La ciencia y la tecnología en el desarrollo futuro de América Latina. Revista de la Integración, (3), 11.
Walliman, N. (2011). “Ch. 6. The nature of data,” “Ch.7. Collecting and analyzing secondary data”, “Ch.8. Collecting primary data.” Research methods: The basics. London: Routledge. pp. 65-127.
La aparición de “Big data” ha tenido un
desarrollo muy rápido en estos años, a la vez que aparecen otros conceptos
junto a éste como el “smart data” y en este artículo, Marcia Zeng presenta su entendimiento
con el “que”, “por qué”, “cómo” “dónde” y “cuáles” datos en relación con Smart data
y las humanidades digitales.
“QUE” es Smart data: Big data se ha caracterizado
por poseer múltiples “V´s”, , Volumen, Velocidad, Variedad y ha sido
complementado con Variabilidad y Veracidad. Big Data puede generar VALOR si se
utiliza apropiadamente. Esta última “V”, depende del “Smart data” que se puede
decir que se define como “la capacidad de lograr conocimientos desde datos veraces,
contextualizados, relevantes, cognitivos, predictivos y consumibles en
cualquier escala. (Kobielus, 2016, p. 8).
“POR QUË Smart data,
los datos en el siglo XXI son el activo más importante que puede generar valor
para quienes aprenden a extraerlos y usarlos. Los datos de este siglo son como
el petróleo del siglo XVIII, los datos rasos son como el crudo, y hay que
refinarlos y procesarlos para generar valor. De acuerdo con el reporte de “Digital
Universe” de 2012, únicamente el 3% de la información se encuentra etiquetada,
y solamente la mitad de este % está analizada. Por lo tanto, existen muchos datos
para ser conocidos, extractados y analizados. Y convertidos en Smart Data
CÓMO transformar
Big data en Smart data: existen muchas tecnologías que permiten convertir a Smart
data, entre ellas “cognitive computing, deep learning, machine learning,
artificial intelligence, predictive analytics, graph databases, machine
intelligence, voice processing, semantic technologies, autonomous vehicles, Big
Data, data science, Internet of Things (IoT), text analysis, Resource Description
Framework (RDF), knowledge graphs, contextual computing, Linked Data, deep
reasoning, ontologies, JSON-LD, common sense, natural language processing (NLP),
and semantic search” (DATAVERSITY, 2017). Todas estas tecnologías están interrelacionadas. Hoy tenemos ejemplos de
su uso en varias disciplinas, “IA” es una de las más avanzadas en este siglo.
QUIËN produce y utiliza Smart data: se
han realizado esfuerzos en utilizar Big data con las estrategias de Smart data
en varias disciplinas, ciencias naturales, ingeniería, análisis financieros,
negocios, medicina entre otros. En las humanidades el mundo de Smart data no ha
sido universalmente usado, aunque se han realizado proyectos de investigación
en estas ciencias. Zeng, presenta un cuadro resumen de actividades y recursos, así
como las tecnologías utilizadas en estas actividades de diversas ciencias.
DONDE está la marca distintiva en las
humanidades digitales: para Schöch (2013), la marca distintiva de Big data en
las humanidades parece ser un cambio metodológico más que una simple
tecnología. La visión de convertir Big data en Smart data, nos lleva de vuelta a
la conocida pirámide, “Data-Information-Knowledge-Wisdom (DIKW), dato – no
sabemos nada, información- el que, conocimiento – el cómo, y Wisdon – el porqué. (Zeleny, 1987; Ackoff, 1988), la
cual representa una forma básica de entender el mundo. Sin embargo la
aproximación a Smart data no es tan simple como replicar la trayectoria DIKW,
puesto que Smart Data está basado en metodologías de Big data, las cuáles nos
permiten llegar a conocer “unknown-unknowns”, (Borne 2013) (incógnitas desconocidas),en
vez de tomar el camino de “Known-unknown”, (incógnitas conocidas).
CUÁL data se puede encontrar para
investigación en Humanidades digitales: al tener Big data y Smart data en un
contexto de humanidades digitales un concepto clave que se debe tener claro es
el uso de “data”, o los datos. Es importante poder distinguir entre “data” y “digital
data”, los cuales no son equivalentes. En las fuentes de datos que existen a
través de LAMs, por sus siglas en inglés, “Libraries”, “Archives” y “Museums”,
y otras instituciones, así como tipos de datos diversos, en naturaleza,
calidad, y los más complejos para procesar, se tienen los datos no-estructurados
encontrados en documentos y otros tipos de textos digitalizados o no, y en toda
clase de formatos.
En el proceso de transformar datos
no-estructurados a datos estructurados o semiestructurados, la estrategia de
Smart Data conduce a los proveedores de servicios de datos a llegar a las máquinas
entendibles y no solamente las máquinas que leen datos. Esto con el fin de
procesar más eficientemente datos para las humanidades digitales. Los datos son
la entrada a cualquier investigación y las tecnologías que hoy se tienen soportan
análisis complejos de datos no estructurados que son los más comunes en las
humanidades.
Las tecnologías avanzadas de hoy bajo Big
data y Smart data permiten a los investigadores de las humanidades unirse a la
era digital con nuevas habilidades, utilizar grandes volúmenes de datos que tal
vez estaban ocultos y a reconstruir el pasado.
Preguntas:
¿Cómo lograr una buena transformación
los datos no – estructurados en datos para mi investigación?
¿Cómo determinar las incógnitas desconocidas
en mi investigación y lograr esa transformación de Big data en Smart data que
genere valor para la sociedad?
Referencias
Ackoff, R.L. (1989). From data to
wisdom. Journal of Applied Systems Analysis, 16(1), 3–9.
Borne, K. (2013). Big data, small
world: Kirk Borne at TEDxGeorgeMasonU [Video file].
Retrieved on December 15, 2016, from
https://www.youtube.com/watch?v=Zr02fMBfuRA.