Relación entre Universidad – Industria – Gobierno MMCORRAL

Maria Mercedes Corral S.

La organización de los documentos y referencias para la investigación es importante para poder optimizar resultados y análisis de la información recopilada. El objetivo de este ejercicio es utilizar un corpus de documentos relacionados con la investigación doctoral y con ayuda de  la herramienta Voyant -Tools generar algún análisis sobre resultados obtenidos.

El corpus utilizado incluye 5 documentos relacionados con el tema de mi investigación, y comprende los siguientes documentos:

  1. Santos, P.. Moving the Universities to the «Third Mission» in Europe, New Impulses and Challenges in Doctoral Education. Foro de Educación, 14(21), 107-132. (2016) doi: http://dx.doi.org/10.14516/fde.2016.014.021.006
  • Gibbons, M., Limoges, C., Nowotny, H., Schwartzman, S., Seot, P. Trow, M, The New Production of Knowledge, The Dynamics of Science and Research in Contemporary Societies, SAGE Publications, London. (2002),
  • Leydesdorff, L, The mutual information of university-industry-government relations: An indicator of the Triple Helix dynamics, Jointly published by Akadémiai Kiadó, Budapest Scientometrics, and Kluwer Academic Publishers, Dordrecht Vol. 58, No. 2 (2003) 445.467, (2003),
  • Göransson, B. & Brundenius, C., Universities in Transition: 3 The Changing Role and Challenges for Academic Institutions, International Development Research Centre, Part 1, (2011)

Información recolectada y su interpretación:

Con los documentos mencionados en el corpus se generaron las siguientes gráficas, que permiten algún análisis e interpretación.

Esta nube de palabras generadas resalta palabras relacionadas con la investigación en tema de universidades, conocimiento, educación, industria, y alguna relación con modelos con la triple hélice, contribución teórica que presenta la relación, entre universidad, gobierno e industria. Así mismo vemos palabras como innovación que representa otra contribución teórica sobre la forma de producir conocimiento e impactar la sociedad con esquemas como la innovación.  Otras palabras como desarrollo, estudiantes, ciencia, relaciones pueden ayudar a establecer relación de la educación en el contexto social.

Respecto a las tendencias, los 5 términos más utilizados son investigación, doctoral, conocimiento, educación y universidad, lo cual relaciona claramente dentro del corpus estos términos sobre lo que se está buscando en la relación de universidad, gobierno e industria, así mismo se observa una tendencia bastante equilibrada en los 5 documentos respecto de estas palabras.

Estas 5 palabras aparecen representan un patrono claramente determinado en el corpus de estos 5 documentos, faltaría relacionar otras palabras que pueden ser importantes e interesantes como políticas, industria que permitan ver una relación más directa con la universidad.

Respecto a la frecuencia de estas palabras, research 221, doctoral 171, knowledge 170, education 162, university 162, en un total de cerca de 30.000 que representan el corpus.

Herramientas como Voyant Tools, permiten análisis de textos que pueden contribuir a la investigación y a una mejor selección de referencias que enfoquen de alguna manera los temas relacionados con los objetivos de la investigación.

 Para este ejercicio en particular, se tomaron 5 documentos que relacionan alguno de los temas de la investigación y se podría analizar más a fondo el contenido de los mismos, con las tendencias que permite ver la herramienta, y su relación con el proyecto en general.

La Codificación en la Investigación Cualitativa – MMCORRAL

Introducción a los códigos y la codificación,

Este resumen presenta la Introducción del libro  de Saldana, J. (2016)., The Coding Manual for Qualitative Researchers , y voy a tratar de presentar algunos ejemplos y definiciones, así como el rol de  los códigos en la investigación cualitativa; también es importante tener algunos atributos claros en el investigador y el  rol de cada método en la respectiva codificación.

Los tres principales propósitos del manual son: 1. Discutir las funciones de los códigos y la codificación, 2. Tener varios métodos de codificación, 3. Tener fuentes, ejemplos y recomendaciones para el análisis a realizar.

Todo investigador que quiere realizar análisis cualitativo debe tener claro su código y método de codificación para el análisis. La excelencia en la investigación en gran parte radica en el método de codificación (Strauss, 1987, p. 27). El autor enfatiza que hay momentos de la investigación que es absolutamente necesaria la codificación de datos, sin embargo, también hay puntos donde no es apropiado para el estudio. La codificación “coding”, es solo “un camino” de hacer análisis cualitativo no es “el camino”. Este manual sirve básicamente como un modelo de referencia para este análisis.

Algunas definiciones que nos permiten entender y aclarar el método:

¿Que es un Código?

Un Código, en una investigación cualitativa se puede definir como una palabra o una frase corta que asigna un atributo a un conjunto de datos, estos datos pueden ser resultados de entrevistas, documentos, encuestas, correos entre otros. En el primer ciclo de codificación los datos pueden ir de una palabra a párrafos o páginas, y aún en el segundo ciclo pueden conservar estas dimensiones.

En semiótica, un código se relaciona con la interpretación de símbolos en sus contextos sociales y culturales específicos, mientras que en análisis cualitativo de datos un código 
es una construcción generada por un investigador que simboliza o “traduce” datos (Vogt, Vogt, Gardner, & Haeffele, 2014, p. 13), y por lo tanto hay interpretación del significado.


Codificación con patrones:

Algunas veces es posible agrupar datos por algunos conceptos y de esta manera generar patrones que pueden compartir atributos, lo cual también se puede utilizar, los patrones se pueden caracterizar por, similitud, diferencia, frecuencia de ocurrencia entre otros.

Codificación con filtros lentes y ángulos:

En esta codificación se requieres usar la lente analítica de su investigador y cómo percibe e interpreta sus datos de acuerdo a los filtros y desde el ángulo que se esté mirando.

La codificación como heurística

Los investigadores cualitativos codifican sus datos durante y después de la recopilación esto como una táctica analítica, puesto que la codificación es el análisis. Sin embargo, hay otras perspectivas que dicen: “Codificación y análisis no son sinónimos, aunque la codificación es un aspecto crucial del análisis” (Basit, 2003, p. 145). La codificación es una técnica de exploración que sirve para resolución de problemas sin algoritmos o fórmulas. La codificación siempre va en ciclos y casi nunca se logra completar el análisis con el primer ciclo, se necesitan como tres o cuatro para lograr generar categorías, temas, patrones y lograr conclusiones.

Codificación y categorización

Codificar es organizar los datos con un orden sistemático y definido para poder establecer categorías. Cuando se aplican los códigos a datos cualitativos, en varios ciclos se busca agrupar, reorganizar y vincular los datos para lograr consolidar un resultado y así tener una explicación al análisis. (Grbich, 2013). Esta consolidación logra determinar categorías que comparten algunas características, y nos permiten realizar un análisis. A diferencia de un análisis cuantitativo donde se calcula una media entre los datos en el cualitativo se calcula un significado.

Este proceso de categorización como se mencionó, anteriormente, va en ciclos y se generan procesos de recodificación y recategorización. La recodificación puede ocurrir con otra perspectiva utilizando de nuevo los métodos del primer ciclo, mientras que los métodos del segundo ciclo describen aquellos procesos que podrían emplearse durante la segunda (y tercera y posiblemente cuarta …) revisión de datos, este sería un esquema para el análisis.

Algunas categorías pueden contener grupos de datos codificados que merecen un mayor refinamiento en subcategorías, cuando se consolidan categorías se llega a los temas y las teorías.

Dato à Codigo à Categoría  à  Tema à Teoría

Técnicas de codificación y diseño de los datos

La preparación de datos para la codificación genera más familiaridad con los contenidos y permite iniciar algunos procesos analíticos básicos. Cuando se preparan los datos cualitativos basados ​​en texto para la codificación y el análisis manual (es decir, papel y lápiz), se pueden tener otras ayudas como notas de campo y otros materiales generados por el investigador. Además de codificar con palabras y frases cortas, nunca pase por alto la oportunidad de “pre-codificar” (Layder, 1998) siempre resaltando lo que pueda ser significativo y sea de atención. Es relevante codificar utilizando un CAQDAS, Computer-Aided Qualitative Data Analysis, que permita recuperación posterior de los códigos.

Es importante iniciar la codificación a medida que recopila sus datos, no después de que se haya completado todo el trabajo de campo, en este momento no necesariamente hay precisión, pero si sirven para futuros análisis. Se pueden tener en cuenta algunas preguntas como: ¿Qué hace la gente? ¿Qué están tratando de lograr? ¿Qué medios y / o estrategias específicas utilizan?, ¿Qué suposiciones están haciendo? Para mencionar algunos ejemplos. También se debe tener en cuenta las cantidades de datos y/o códigos cualitativos, por si se quieren transformar en algún análisis estadístico.

Para construir su libro de códigos es necesarios utilizar un programa CAQDAS – Computer-Aided Qualitative Data Analysis, que le permita mantener su lista, y utilizarla en varios momentos. Esta tarea se puede realizar de forma manual o electrónica, una vez se logra la experiencia con los programas. Se deben conocer sus configuraciones y utilizar sus opciones de tal forma que se pueda optimizar el uso de la herramienta, y de esta manera asegurar la confiabilidad de los datos. Con las herramientas seleccionadas se logran consultas más elaboradas sobre los datos y por supuesto es una ventaja sobre la búsqueda manual. Para la codificación existen también dos formas de realizarla, se puede realizar el proceso “solo” o conformar equipos y compartir diferentes miradas sobre los datos y la codificación lo cual puede llevar a mejores análisis y resultados.

Sin entrar en detalle es importante contar con algunos atributos personales necesarios para el proceso de codificación: 1.ser organizado con los datos, 2.ser perseverante y constante, 3. Ser capaz de lidiar con ambigüedad en los datos, 4. Ser flexible sobre los datos, 5. Tener creatividad sobre la codificación, 6. Ser rigurosamente ético sobre sus datos, y 7. Tener un vocabulario extensivo que le permita definir categorías diversas.

Algunas críticas en contra de la codificación han sido filosóficas y otras metodológicas. Saldana en su manual referencia algunas de éstas. La codificación intenta ser objetiva, esto podría ser una discusión extendida sobre los supuestos ontológicos, epistemológicos y metodológicos de la investigación. La codificación es mecanicista, instrumentalista y te aleja de tus datos. Si no existe una buena codificación, te alejas del significado de los datos. La codificación no es más que contar las ocurrencias de los códigos y esto sirve para medir frecuencia de ocurrencias. La codificación es “peligrosa”, “violenta” y “destructiva”, no entiende Saldana estas caracterizaciones a la codificación y va totalmente en contra de esto y seguramente de lo malos codificadores. Se califica la codificación como método obsoleto para el análisis cualitativo de datos, llevando mas de medio siglo, las metodologías y herramientas ciertamente han cambiado, pero el proceso es el mismo.

Termina Saldana este capítulo “comparando la codificación con un arte, una artesanía, se debe atender el arte y también la artesanía de lo que hacemos” para lograr el éxito.

Mi investigación para el doctorado tendrá alto contenido de datos cualitativos, posiblemente contando con algunos datos cuantitativos. Para el análisis cualitativo seguramente podré explorar un poco más el trabajo con códigos y codificación.

Referencias

Saldana, J. (2016). The Coding Manual for. Qualitative Researchers (3rd ed.) London, UK: Sage. Chapter 1. Introduction to code and coding.

Estadísticas MMCORRAL – Módulo 2 Miniproyecto

PROYECTO ESTADÍSTICA

MÉTODOS AVANZADOS DE INVESTIGACIÓN

                                                                       Profesora Diana Lucio-Arias.

Maria Mercedes Corral Strassmann

Abril 2 de 2020

  1.  

Contenido

. 1

PROYECTO ESTADÍSTICA.. 1

1       INTRODUCCION Y OBJETIVO.. 3

2       DATOS. 3

3       ANALISIS. 5

4       CONCLUSIONES. 7

5       REFERENCIAS. 8

  1.  

1         INTRODUCCION Y OBJETIVO

En este proyecto se pretende realizar una pequeña investigación preliminar para consecución de datos utilizando herramientas avanzadas para este fin. Los datos se obtienen en este caso con la red social Twitter; para el caso de mi investigación relacionada con universidades, sus funciones, misiones, y relaciones con su entorno, la idea es buscar información a través de Twitter que permita realizar algún análisis relacionado con el propósito de la investigación y poder generar algunas conclusiones.

Las posibles preguntas previas a la investigación serían:

  • ¿Qué tanto se relacionan las universidades con otros actores o con las mismas universidades, a través de Twitter?
  • ¿Tienen alguna incidencia variables como el tipo de universidad (pública- privada), numero de programas, número de estudiantes, entre otros?

2         DATOS

Como datos para este proyecto se toman los siguientes:

  • Se utiliza la red social Twitter como fuente de datos
  • Se toma la Base de SNIES de las universidades de Colombia y de aquí se extraen únicamente las certificadas en calidad, que son 60.
  • Se investigan los “user name” y “user id” de twitter de este rango de Universidades
  • Se crea un “bin” en el TCAT con los tweet-id de las universidades certificadas en calidad.
  • De este “bin” se obtienen 1621 registros que contienen tweets de las universidades.
  • Se investigan el número de estudiantes de cada una de estas universidades
  • Se toma del SNIES el número de programas de cada Universidad.
  • Se crea la matriz con las variables que se muestran en la misma, tomadas del full-export de twitter más algunas definidas en correlación con los tweets.
  • Se generan tres data set con la siguiente información:
  • Información sobre los TW posteados por las universidades acreditadas en Colombia en el intervalo definido (feb 25 a mar 6 de 2020), identificando cada en la red TW, cuantificando variables como número de TW, menciones, seguidores, amigos y favorito. Se clasifican como tweet y re-tweet (0/1) (Export)
    • Información sobre los destinatarios de las menciones o RT bajo una clasificación definida 1 interno, 2 otras universidades acreditadas, 3 3 entidades gubernamentales, 4 medios de comunicación, 5 universidades no acreditadas Colombia, 6 universidades fuera de Colombia, 7 otras entidades, 8 otros/personas
    • Información base de las universidades certificadas en Colombia, que incluye la naturaleza jurídica, número de estudiantes y programas ofrecidos, tomada del SNIES a la cual se le adiciona la información del número de TW, seguidores, amigos y favoritos, así como la clasificación de los destinatarios de los TW o RT definida
  • La definición de cada variable como independiente o dependiente, se realizó de acuerdo con el siguiente criterio:
    • Se consideran independientes las variables relacionadas con la estructura universitaria, independiente de la operación de la red de Twitter
    • Se consideran dependientes las variables que dan cuenta del tipo y número de relaciones que cada universidad tiene con otros actores de su entorno a través de la red TW

Se anexan las Tablas correspondientes.

No se incluye en este proyecto análisis de contenido de tweets

3         ANÁLISIS

Se caracterizaron las universidades acreditadas en Colombia por el número de TW o RT generados durante el período de análisis, encontrándose que 35% de ellas (21) no generaron ningún TW o RT en el período analizado; de este grupo el 38% son universidades públicas y 62% privadas.

Nro. TW o RT por Universidad Nro. De Universidades %
0 TW o  RT 1 21 35.0
De 1 a 15 25 14 23.3
De 16 a 30 50 13 21.7
De 31 a 50 100 9 15.0
De 51 y más 3 5.0
Total 60 100.0

3.1        Nro. TW o RT por Universidad

Se caracterizaron las universidades acreditadas en Colombia, por naturaleza jurídica, con las variables de estudiantes, programas, el número de TW, seguidores y amigos. Se generaron indicadores de TW o RT por 1000 estudiantes y el número de seguidores por estudiante y favoritos por seguidores. Se destaca que, si bien los estudiantes atendidos por las universidades públicas analizadas corresponden al 67%, los TW publicados por estas universidades corresponden solamente al 29% del total de TW, esto genera una diferencia importante en el indicador de número de TW o RT por 1000 estudiantes que es cinco veces mayor en las privadas que en las públicas (4.06 vs 0.82)

Valores Pública Privada Total general Pública Privada
Nro instituciones 19 41 60 32% 68%
Nro estudiantes 585,077 281,872 866,949 67% 33%
Nro programas 2,717 4,298 7,015 39% 61%
Nro TW o RT 479 1145 1624 29% 71%
Suma de Nro. Max favoritos 28,001 105,978 133,979 21% 79%
Suma de Nro. Max amigos 9,043 43,132 52,175 17% 83%
Nro máximo amigos 617,070 699,282 1,316,352 47% 53%
TW/RT por estudiante (x 1000) 0.82 4.06 1.87
Estudiantes por programa 215 66 124
Seguidores por estudiante 0.0 0.4 0.2
Favoritos/Seguidores 32.3 40.7 38.9

Para las universidades con por lo menos un TW o RT en el periodo de análisis, se calcularon indicadores de tendencia central del número de TW o RT, seguidores y favoritos, encontrándose una alta dispersión de los datos

TW/RT Nro. Max seguidores Nro. Max favoritos
Promedio 43 34,641 3,526
Mediana 32 17,178 1,864
Moda 31
Desv. Estandar 33.2 56,733.8 4,177.4
Mínimo 2 1,401 82
Máximo 137 327,156 16,862
Coef. Variación 0.78 1.64 1.18
Varianza 1,103 3,218,723,262 17,450,455

En relación con las menciones y RT se clasificaron por tipo de destinario de manera desagregada por naturaleza jurídica de la universidad. Se destaca que la mayor proporción de menciones o RT está destinada a grupos de la misma universidad (38,4% en el total de universidades, mayor proporción en las públicas (46% y 38% privadas). Otro destinatario importante son las entidades del gobierno, 12,7% del total y 18% en las públicas y 11% en las privadas.

4         CONCLUSIONES Y PREGUNTAS

Si bien se trata de un data set que cubre los TW generados durante un periodo de 10 días, se observan diferencias importantes en el comportamiento de las universidades. Se destaca que 35% de las universidades acreditadas en Colombia no generaron TW en dicho periodo. Sería importante ampliar el periodo de observación con el fin de revisar la consistencia de los datos y determinar la importancia que le dan estas entidades Twitter a este medio para relacionarse en la sociedad en general.

4.1        De encontrarse que un número importante de universidades no utiliza este medio, cabe preguntarse ¿por qué no utilizan este medio y a través de que medios se relacionan con las comunidades universitarias?

La naturaleza jurídica de las universidades afecta los resultados de los indicadores analizados, se observa una mayor generación de TW o RT por cada 1000 estudiantes en las universidades privadas que en las públicas.  En este contexto, es importante analizar a futuro las razones que llevan a que el número de mensajes de TW o RT por cada 1000 estudiantes sea 4 veces mayor en las privadas que en las públicas.

4.2        ¿Es un de tema de brecha digital? ¿acceso a recursos, educación, ingresos?

De analizarse el contenido de los mensajes con herramientas como análisis de sentimientos, se podría caracterizar el tipo de mensajes que las universidades envían por este medio y evaluar:

4.3      ¿podría este medio de comunicación ser una herramienta que permite generar valoraciones de la vinculación de las universidades con su entorno de desempeño?

5         REFERENCIAS

GUIAS de las herramientas compartidas para este Módulo. TCAT.

Modulo Estadísticas MMCORRAL

PROYECTO ESTADÍSTICA

MÉTODOS AVANZADOS DE INVESTIGACIÓN

                                                                       Profesora Diana Lucio-Arias.

Maria Mercedes Corral Strassmann

Marzo 9 de 2020

  1.  

Contenido

. 1

PROYECTO ESTADÍSTICA.. 1

1       INTRODUCCION Y OBJETIVO.. 3

2       DATOS. 3

3       ANALISIS. 4

4       CONCLUSIONES. 4

5       REFERENCIAS. 5

  1.  

1         INTRODUCCION Y OBJETIVO

En este proyecto se pretende realizar una pequeña investigación preliminar para consecución de datos utilizando herramientas avanzadas para este fin. Los datos se obtienen en este caso con la red social Twitter; para el caso de mi investigación relacionada con universidades, sus funciones, misiones, y relaciones con su entorno, la idea es buscar información a través de Twitter que permita realizar algún análisis relacionado con el propósito de la investigación y poder generar algunas conclusiones.

Las posibles preguntas que tengo serían:

  • ¿Qué tanto se relacionan las universidades con otros actores o con las mismas universidades, a través de Twitter?
  • ¿Tienen incidencia  variables como el tipo de universidad (pública- privada), numero de programas, numero de estudiantes, entre otros?

2         DATOS

Como datos para este proyecto se toman los siguientes:

  • Se utiliza la red social Twitter como fuente de datos
  • Se toma la Base de SNIES de las universidades de Colombia y de aquí se extraen únicamente las certificadas en calidad, que son 60.
  • Se investigan los “user name” y “user id” de twitter de este rango de Universidades
  • Se crea un “bin” en el TCAT con los tweet-id de las universidades certificadas en calidad.
  • De este “bin” se obtienen 1621 registros que contienen tweets de las universidades.
  • Se investigan el número de estudiantes de cada una de estas universidades
  • Se toma del SNIES el número de programas de cada Universidad.
  • Se crea la matriz con las variables que se muestran en la misma, tomadas del full-export de twitter más algunas definidas en correlación con los tweets.
  • Se generan tres data set con la siguiente información:
  • Información sobre los TW posteados por las universidades acreditadas en Colombia en el intervalo definido (feb 25 a mar 6 de 2020), identificando cada en la red TW, cuantificando variables como número de TW, menciones, seguidores, amigos y favorito. Se clasifican como tweet y re-tweet (0/1)
    • Información sobre las universidades certificadas en Colombia, teniendo la naturaleza jurídica, número de estudiantes y programas ofrecidos, así como el número de TW, seguidores, amigos y favoritos.
    • Información sobre los destinatarios de las menciones o RT bajo una clasificación definida 1 interno, 2 otras universidades acreditadas, 3 3 entidades gubernamentales, 4 medios de comunicación, 5 universidades no acreditadas Colombia, 6 universidades fuera de Colombia, 7 otras entidades, 8 otros/personas
  • La definición de cada variable como independiente o dependiente, se realizó de acuerdo con el siguiente criterio:
    • Se consideran independientes las variables relacionadas con la estructura universitaria, independiente de la operación de la red de Twitter
    • Se consideran dependientes las variables que dan cuenta del tipo y numero de relaciones que cada universidad tiene con otros actores de su entorno a través de la red TW

Se anexan las tablas:

Tabla export

Tabla Univ

Tabla mention – relaciones

No se incluye en este proyecto análisis de contenido de tweets

3         ANALISIS

4         CONCLUSIONES

5         REFERENCIAS

Análisis de Datos – MMCORRAL – mini proyecto módulo 1

PROYECTO DE ANALISIS DE DATOS –MÉTODOS AVANZADOS DE INVESTIGACIÓN

 

Maria Mercedes Corral Strassmann

Febrero 24 de 2020

  1.  

CONTENIDO

PROYECTO DE ANALISIS DE DATOS –. 1

1       INTRODUCCION Y CONTEXTO.. 3

2       MÉTODOS Y HERRAMIENTAS. 3

3       DATOS. 5

4       ANALISIS. 8

4.1        Análisis de Usuarios: 8

4.2        Análisis de Tiempos: 9

4.3        Análisis de Frecuencia de tweets: 10

4.4        Análisis de Frecuencia de “url´s”: 11

4.5        Análisis de tweets: frecuencia y conteo de palabras. 12

4.6        Análisis de tweets, menciones y re-tweets: 13

4.7        Análisis de contenido de algunos tweets: 15

4.8        Análisis de red: 17

11         CONCLUSIONES. 23

12         REFERENCIAS. 25

12.1          Otras Referencias. 25

 

  1.  

1         INTRODUCCION Y CONTEXTO

En Colombia, las (IES) – Instituciones de Educación Superior cumplen con varios objetivos misionales que trascienden la formación de profesionales, por ejemplo, la Javeriana, en su Planeación Universitaria 2016-2021, establece como objetivos misionales el ejercicio de la docencia, la investigación y el servicio con excelencia, como universidad integrada a un país de regiones, con perspectiva global e interdisciplinar.

En este sentido hay contribuciones teóricas que han resaltado los cambios en las maneras tradicionales de producir conocimientos y la forma en que estos pueden impactar la sociedad, particularmente a través de la innovación. El argentino Jorge Alberto Sábato propone en la década de los 60, una estructura triangular entre la industria, la infraestructura científica y tecnológica y el estado como modelo para el desarrollo de la política de ciencia y tecnología en América Latina (Sábato, Botana 1968). El sistema de innovación fue propuesto como un modelo funcional que motiva la innovación como el resultado de interacciones entre distintos tipos de actores (Lundvall, 1993), por su lado, el modelo de la triple hélice (Leydesdorff y Etzkowitz, 1993) resalta el papel de las organizaciones formales, y las relaciones entre los actores para que el conocimiento y la información incidan en el desarrollo económico y social de los países.

Las anteriores contribuciones ayudan a modelar la relación de la universidad con su entorno desde sus funciones de formación y de investigación y producción de conocimiento, pero que sucede con la tercera misión de la IES, donde ésta se enfoca en el servicio y en la contribución social al país.

El objetivo principal de mi investigación se focaliza en esa tercera misión de las IES, y en particular de la Pontificia Universidad javeriana, con el fin de formular una propuesta de modelo que emerja de las diversas formas en que las universidades colombianas se relacionan con su entorno, que permita valorar las actividades en la heterogeneidad de sus impactos, beneficiarios y características.

Esto permitirá reconocer las distintas actividades que se realizan desde la universidad e impactan la sociedad, además de aquellas que ya se han popularizado y socializado.

En este proyecto se pretende realizar una pequeña investigación preliminar para consecución de datos utilizando herramientas avanzadas para este fin. Los datos se obtienen de Media Cloud o de la red social Twitter; para el caso de mi investigación relacionada con universidades, sus funciones, misiones, y relaciones con su entorno,  la idea es buscar información a través de Twitter que permita realizar algún análisis relacionado con el propósito de la investigación y poder generar algunas conclusiones.

2         MÉTODOS Y HERRAMIENTAS

El éxito de la investigación estará siempre en los datos, en la naturaleza de estos, en los esquemas de recolección y finalmente en los métodos de análisis que se escojan. Walliman (2011), en su libro nos presenta las formas en que encontramos los datos, estos se encuentran en dos formas, datos primarios, y datos secundarios. Los primeros son directos de la observación y los segundos llevan interpretación. Existen cuatro tipos de datos primarios de acuerdo con su esquema de recolección, por medida, por observación, por interrogación y por participación. Los datos primarios son los más confiables. Los datos secundarios, dependen de las fuentes para su confiabilidad.

Los datos base para este proyecto son datos primarios tomados a partir de participación en la red twitter con base en la creación de un .bin. A partir de estos primarios va una interpretación para generar un análisis lo cual los convierte en datos secundarios. En este caso se toman datos de una semana y mas adelante explico con cuál herramienta se recolectan los datos.

Adicionalmente está el método de análisis de los datos, Hernández Sampieri (2010), plantea los métodos de análisis de los datos, métodos cuantitativos y métodos cualitativos. Según Sampieri los fenómenos actuales de las ciencias son tan complejos que requieren métodos mixtos, cualitativos y cuantitativos.

Para este proyecto se utiliza inicialmente método cualitativo por el tipo de herramientas y de muestra que se obtiene. Los datos provienen de redes sociales, son datos no estructurados, necesitan interpretación. Posteriormente el análisis puede llegar a dar unos elementos cuantitativos producto de este, estos datos se refieren a conteo de palabras, de mensajes, usuarios que claramente son cuantitativos.

Como herramientas para este proyecto se utiliza TCAT (Twitter Capture and Analysis Toolset), que es un conjunto de herramientas para recuperar y recoger tweets de Twitter y analizarlos de varias formas. TCAT fueron desarrolladas por investigadores University of Amsterdam con el propósito de apoyar el avance de los métodos digitales de investigación. (Guia de TCAT).

Con la versión que cuenta la Javeriana DMI-TCAT instalada en servidores de Caoba y el laboratorio de Big Data (facultad de Comunicación + Ingeniería), para uso académico de estudiantes y profesores, se creó la base para generar los datos para este proyecto. (Guia de TCAT).

Para el análisis se tomó desde Admin, creando un “bin” y algunas palabras seleccionadas, con los datos iniciales se realizan algunos “queries” y exclusión de algunas palabras para refinar un poco las búsquedas.

Los datos recolectados se descargan en archivos CSV para su posterior análisis. Se utilizaron otras herramientas externas a TCAT para el análisis y las estadísticas, Open Refine, Excel y para el análisis de redes se hizo con Gephi.

Inicialmente se generan un número de datos considerable que pueden ser la muestra, pero con un análisis rápido se ven datos que no aportarían al objetivo; por lo tanto, se realizan unos filtros sobre los tweets que me permitan tener un data set más afinado.

Se realizan filtros por país, incluyendo solo Colombia y posteriormente excluyendo Cuba para llegar a datos que estén más de acuerdo con el objetivo.

3         DATOS

Se crea inicialmente un “bin”, desde Admin, utilizando TCAT de la Universidad Javeriana, y este “bin” se crea con las siguientes condiciones:

  • Fecha inicio: 10 02 2020
  • Fecha fin:      17 02 2020  
  • El “bin” se crea con algunas palabras claves que ayuden a recibir tweets que sean de utilidad para el proyecto de investigación. Estas palabras fueron:
  • Universidades
  • Misión
  • Extensión.

Para estas palabras claves se presentaron 71.000 tweets, como base de la recolección planteada.

Una primera revisión general de los datos muestra datos de universidades en el mundo por lo cual se hace un filtro solamente para Colombia. Este filtro deja un conjunto de 2.220 datos. Iniciando algún tipo de análisis se observan muchos datos de Cuba con lo cual se refina la búsqueda a excluir a Cuba.

Por lo tanto, la muestra para el análisis se determina como:

  • Palabras claves: universidades/misión/extensión
  • Query: Colombia
  • Excluir: Cuba
  • Total de tweets: 1.354

Las siguientes Gráfica  1a y Grafica 1b muestran resultados de las búsquedas ya filtradas.

Grafica 1a – resultados de TCAT

Grafica 1b – resultados de TCAT

3.1        Estadísticas:

El conjunto de estadísticas de datos obtenidos se muestra en la siguiente gráfica:

Grafica 2 – estadísticas

Las estadísticas muestran, lo siguiente:

Los 1354 tweets se concentran en la mitad del período, adicionalmente el número de re-tweets es de 963 que equivale al 71%.

El número de tweets con links, hashtags, o menciones no es considerable en la muestra y no llega al 1%.

El número de replies es de 226 que corresponde al 16% de la muestra.

Por el contrario, el número de tweets con menciones es de 1249 que corresponde al 92%.

Se extraen como datos para análisis:

  • Export de tweets
  • Hashtags
  • Id de usuario
  • Número de twwets
  • Export de la red para ser llevada a Gephi

Con esta base se obtiene lo siguiente datos, que se ven reflejados en las gráficas de BATABASE.IO, y las tablas correspondientes.

4         ANALISIS

De acuerdo con el planteamiento de los datos recolectados se puede generar algún análisis.

Realizando alguna mirada sobre los tweets producto de esta búsqueda, se observa que la mayoría se refieren a situaciones de orden público que se presentó durante la semana de la investigación. Por lo tanto, los resultados son de alguna manera inesperados frente a lo que se pensaba.

4.1        Análisis de Usuarios:

En la Gráfica 3a – Fechas de recolección – feb 10 – feb 16,  User-id – usuarios que realizaron tweets

Grafica 3a -usuarios y tweetts

Gráfica 3b – Fechas de recolección – feb 10 – feb 16, User-id – usuarios que realizaron tweets

Únicamente 13 usuarios realizan 3 tweets, un usuario 4 tweets y un usuario 5 tweets.

No se muestra en la tabla, pero 59 usuarios realizan 2 tweets y el resto uno o ninguno.

El número de re-tweets de estos usuarios no es representativo, llama la atención el número de menciones del usuario “sergioaraujoc” que llega a 248. Este usuario con 3 tweets reúne una gran cantidad de menciones que se observan posteriormente en los diagramas de red.

Dentro del análisis de usuarios cabe resaltar este usuario “sergioaraujoc” pues presenta en el data set,

from-user-tweet count:           36.984

from-user-followers:               23.496

From-user-friend-count:          5.715

From-user-listed:                        101

Mentioned                                  248

4.2        Análisis de Tiempos:

En la Gráfica 4 – análisis de intervalo de tiempo, se muestra el comportamiento del número de registros por fechas de la muestra, y se ve una clara disminución a partir del 13 de febrero que puede deberse a la misma situación de orden, ya mencionada. Esta misma situación se aprecia en la gráfica de estadísticas de este data set.

Gráfica 4 – análisis del intervalo de tiempo

4.3        Análisis de Frecuencia de tweets:

En la Gráfica 5, se muestra que el número de tweets como ya se mencionó, el  máximo es 5, teniendo una tendencia el 1 y el 0, sobresale el usuario “sergioaraujoc” quien con 3 tweets reúne una gran cantidad de menciones que se observan posteriormente en los diagramas de red. Los usuarios que se pueden identificar de universidades, en este data set tienen pocos tweets y adicionalmente no aparecen todas.

Gráfica 5 – análisis de numero de tweets

4.4        Análisis de Frecuencia de “url´s”:

En la Gráfica 6a, se presenta la frecuencia de “url”, la cual oscila entre 1 y 7 y estos se refieren básicamente a los “url´s” de la Gráfica 6b, los cuáles muestran claramente que se refieren a noticias de orden público, incluso uno de estos url se refiere a un tema de universidades latinoamericanas pero referente a un tema de denuncia judicial. El “url” de mayor frecuencia – 7, se refiere a laguna situación del esmad, que ayuda a concluir la situación de orden.

Gráfica 6a – frecuencia de url´s

Gráfica 6b – url´s más mencionados

4.5        Análisis de tweets: frecuencia y conteo de palabras

Para el análisis de los tweets se tiene una vista de frecuencia de palabras donde se puede analizar algo el tipo de lenguaje utilizado

En la Grafica 7a, podemos observar la frecuencia de palabras en el data set base de la recolección, en su representación gráfica por tamaño de ocurrencia de palabras.

En una mirada general resaltan palabras como “universidades”, “Colombia”, “estado”, “pueden”, y algunos conectores como “para” “que” y verbos como “son” “pueden” “dejar”, que tendrían algún valor para mi objetivo, pero sus complementos son palabras como “armas” “violar” “eln” lo cual nos lleva a temas de orden público.

Gráfica 7a – conteo palabras y su representación

En la Gráfica 7b de DataBasic, se aprecia el correspondiente conteo de palabras como “universidades” – 1428, “Colombia” – 450, “policía Colombia” – 439, “estado” – 434, los bigrams y trigrams de esta gráfica nos muestran resultados como “la autonomía universitaria”, “envuelven la policía Colombia”, “la policía Colombia”, que reflejan situaciones de orden público.

Gráfica 7b – conteo palabras y su representación

4.6        Análisis de tweets, menciones y re-tweets:

Utilizando la estadística de menciones, se tienen 590 menciones y 969 re-tweets. En esta vista se tienen 373 te-tweets del usuario “sergioaraujoc”, el usuario “contagioradio 1” tiene 98 re-tweets. El usuario “WRadioColombia con 255 retweets.

Algunas menciones de 40 para “policía nacional”, “el colombiano” con 30  y aparece un usuario “egarciarujes” con 28 re-tweets y el usuario “CristinaRevolt” con 42.  Estos son los valores más representativos lo cual lleva a una dispersión aún mayor de la red.

En la Gráfica 8a , se pueden apreciar los usuarios más representativos del data set, por número de menciones y/o re-tweets. Se puede observar la concentración en unos pocos usuarios.

Gráfica 8a – usuarios más representativos

Los usuarios de las universidades también tienen su presencia en este data set, 68 menciones.

Gráfica 8b – usuarios de universidades

Sin embargo, su representación es muy baja frente a otros usuarios, teniendo en esta gráfica anterior, Gráfica 8b, todos los usuarios de universidades. Sin embargo, no hay tweets de estos usuarios

4.7        Análisis de contenido de algunos tweets:

1228292516816048134 1581682731 2020-02-14 12:18:51 sergioaraujoc El cuento de que la autonomía universitaria da para que universidades sean un bastión y guarida del terrorismo, que me lo envuelvan. La @PoliciaColombia y las @FuerzasMilCol no pueden tener territorios vedados. Son las armas de la democracia. La capacidad cohercitiva del estado
1228431452393680901 1581715856 2020-02-14 21:30:56 sergioaraujoc Ese cuento de que la autonomía universitaria da para que las universidades sean bastión y guarida del terrorismo, que me lo envuelvan. La @PoliciaColombia y las @FuerzasMilCol no pueden tener territorios vedados. Son las armas de la democracia. La capacidad coercitiva del estado

Estos dos tweets del usuario “sergioaraujoc”, son los que concentran las RT-  373, indicadas anteriormente y por lo tanto concentran la red. Claramente se refiere a algún comentario que genera situaciones de respuesta.

1229206119874269186 1581900551 2020-02-17 0:49:11 RivasRegalOne Que buena Noticia, las mayoría de Universidades Colombianas inaugurarán sus Regionales en Florencia, en Puerto Carreño, en Puerto Inírida, en Mocoa, en Mitú, en Yopal y en San José del Guaviare. Bien.
1227967206891433984 1581605171 2020-02-13 14:46:11 RankiaColombia Mejores Universidades Virtuales en Colombia https://t.co/jnO0h5BeMz
1228027328078471169 1581619505 2020-02-13 18:45:05 foris Experiencias de Universidades en Colombia con respecto al éxito estudiantil.  https://t.co/QHkQuLs8qu  #Colombia #StudentSuccess #Retención #Foris

Estos tres tweets mencionan situaciones importantes de las universidades en Colombia, pero las menciones y seguidores o RT son mínimos, y no se ven en las redes.

1228803076804534272 1581804458 2020-02-15 22:07:38 Daniela_A_Gallo El caso de TODAS las universidades de Colombia, si quienes estudiamos somos la minoría y no tenemos acceso tan evidente y sencillo a atención mental, ¿cómo será para el resto de los jóvenes?

Este tweet puede ser una solicitud a las universidades por una necesidad de atención mental, lo miso son tweets que no se ven representados en la red.

1228209433949270018 1581662922 2020-02-14 6:48:42 rhonoric Colombia. Docentes de Universidades Públicas denuncian montaje judicial – Resumen Latinoamericano https://t.co/Sgu1JHwlxf
1228087079084679169 1581633751 2020-02-13 22:42:31 Contagioradio1 Docentes de universidades públicas denunciaron un montaje judicial que se estaría creando en su contra por promover pensamiento crítico en Colombia  https://t.co/eNTWpb0WTo https://t.co/vOgHFa6J1m
1228304131254710272 1581685500 2020-02-14 13:05:00 Contagioradio1 “No vamos a dejar que acallen al pensamiento crítico en Colombia” docentes de universidades públicas denunciaron que serían víctimas de un montaje judicial  https://t.co/eNTWpbixKW
1227565886451671040 1581509489 2020-02-12 12:11:29 carrique6181 ¿Por qué es tan polémica la propuesta de enviar fuerza pública a las universidades? https://t.co/hfLjxrYzBK vía @elcolombiano
1227686078200590338 1581538145 2020-02-12 20:09:05 Daniel_VasquezT En Colombia las universidades públicas se volvieron un santuario para los crimínales. La Policía no puede actuar. En Medellín casi impactan un bus con un explosivo https://t.co/fZvp5QzE9N
1227952619341127680 1581601693 2020-02-13 13:48:13 JESUSLADEUTH Quintero estrenó protocolo de reacción ante explosivos en las universidades via @elcolombiano móvil https://t.co/nd547OLdbO

Claramente estos tweets, son situaciones de orden público y de quejas hacia las universidades públicas. De estos tweets anteriores, el usuario “contagioradio 1” generó 98 RT con este twwet, algo que representa un poco más en la gráfica.

4.8        Análisis de red:

Para centralidad de la red, e identificación de comunidades/clusters, se utiliza la modularidad como medida de la estructura de la red. Sirve para mirar el agrupamiento de los nodos. Se utilizó una Resolución de 5.0 con una modularidad resultante de 0.769. Grafica 9.

Sobe los algoritmos utilizados en el análisis de red, Page rank, para la medición de la importancia de cada nodo en la red, se asignó una probabilidad de 1.0 y un Epsilon de 0.001. Gráfica 10.

Sobre el data set se utilizó algoritmo Page-rank, para centralidad de la red, así mismo y para la identificación de comunidades/clusters, se afinó la Modularidad. Para la distribución de la red se utilizó el algoritmo Force atlas 2. Gráfica 13, muestra los parámetros de este algoritmo.

Para el posicionamiento de los nodos con respecto a los otros se utilizó el algoritmo Force atlas 2, se aplica una reducción de la dispersión y una gravedad para acercarlos.

Parámetros utilizados:

En las siguientes graficas se muestran los grafos y los respectivos parámetros asignados en cada unos de los algoritmos descritos anteriormente.

  • Modularity Report

  • Parameters:

Randomize: On
Use edge weights: On
Resolution: 5.0

  • Results:

Modularity: 0.769
Modularity with resolution: 4.647
Number of Communities: 74


Gráfica 9 – Modularidad

  • PageRank Report

  • Parameters:

Epsilon = 0.001
Probability = 1.0

  1. Results:

Gráfica 10 – Page rank

Con base en algunas gráficas de red en Gephi, que permiten generar análisis claramente la red es bastante dispersa, en su mayoría. Se presenta una concentración importante la cual se observa en la Gráfica 11, alrededor del usuario “sergioaraujoc”, quien tiene registrados 3 tweets y a partir de estos genera esta gran cantidad de menciones.

Gráfica 11 – Grafica de red teniendo en cuenta los 1354 resultados

En la Gráfica 12a y 12b,, se observa una pequeña concentración (tono fucsia) que se refiere a los usuarios de las universidades que aparecen en la muestra. Se concentran en un punto, pero sigue siendo disperso el resto de los usuarios.

Grafica 12a – muestra de una concentración en fucsia que se refiere a las universidades

Grafica 12b – detalle de la concentración fucsia que son las universidades

La dispersión de la red es más clara en la Gráfica 13

Gráfica 13 – muestra la dispersión de los datos

El análisis general, realmente no aporta a la investigación, puesto que la intención de obtener tweets de las universidades o de lo que se pide a las universidades no se logró con esta muestra. Básicamente se concentró la muestra en algunos tweets generados por una situación de orden público que no era realmente el propósito. Pero se lograron algunos análisis sobre el data set generado.

11    CONCLUSIONES

De acuerdo con Rogers (2013), es importante tener claro cómo conseguir la data y como analizar los objetos digitales, hyperlinks, tags, search engine results, archived websites, social networking sites profiles, Wikipedia edits.

Por lo tanto, como conclusión al ejercicio, se deben tener en cuenta varios elementos precisos al momento de tomar las muestras de datos que se van a requerir. Para el caso de recolección de datos en redes sociales es importante tener conocimiento de las formas y esquemas para esta recolección, dado que es el insumo principal para el análisis.

Las investigaciones tienen algunas limitaciones con los datos tomados de redes sociales, puesto estos pueden ser inestables y no siempre ser permanentes; adicionalmente las herramientas pueden restringir los textos, y los datos se toman en determinados intervalos de tiempo que pueden también restringir la investigación.  Rogers (2013).

Cómo conseguir la data y como analizarla, y de donde tomarla, son temas importantes a tener en cuenta para estas investigaciones. También hay que considerar que los datos de las redes son datos no estructurados y adicionalmente llevan la interpretación de quien está enviando el mensaje, lo cual significa que son datos cualitativos, e implica un mayor análisis de su contenido para llegar a mejores conclusiones.

Surgen algunas preguntas cuando nos enfrentamos a los medios sociales y a la recolección de datos a través de estas, ¿cómo abordar la investigación en internet?, ¿Cómo enfocar los medios?, ¿Que herramientas usar?, ¿Como definir de acuerdo con la investigación las preguntas anteriores?

De acuerdo con el objetivo planteado en este documento, no se logró recolectar datos que ayuden a revisar la relación de las universidades, con su entorno en todas las funciones que éstas desempeñan.  

Para mí trabajo fue importante aprender a recolectar datos de redes sociales que me permitan posteriormente analizar y generar conclusiones.

Pienso que debo investigar más como las universidades se pronuncian a través de Twitter para lograr recolectar la información que realmente me pueda servir. Para esta investigación, sería importante contar con usuarios de las universidades, también a través de los portales y la forma en que las universidades se manifiestan en las redes sociales, en twitter principalmente.

Como un ejercicio siguiente me gustaría crear un “bin” con temas más precisos y búsquedas más alineadas con el propósito de mi investigación. Para este fin he pensado en algunas preguntas que me podrían servir para establecer resultados más afines a mi proyecto.

Las posibles preguntas que tengo serían:

  • ¿Cuál ha sido la historia de las relaciones de la comunidad con otros actores a través de twitter? esta comunidad pueden ser las universidades o más precisamente la Javeriana.
  • ¿Qué se le pide a la Javerana a través de twitter?
  • ¿Qué dice la Javeriana a través de twitter?
  • ¿Con quién y cómo se relaciona la Javeriana a través de twitter?
  • ¿Cómo valorar la relación universidad entorno a través de twitter?

Y para finalizar pienso que es importante continuar aprendiendo de estas herramientas robustas que pueden permitirme generar análisis interesantes e importantes para mi investigación.

Fue una excelente experiencia frente a otro tipo de datos y los resultados que se pueden llegar a obtener.

12    REFERENCIAS

Hernández Sampieri, R., Fernández Collado, C., Baptista Lucio, P. (2010). (5a Edición). “Capitulo 17:  Los métodos mixtos.”

Leydesdorff, L. y Etzkowitz, H. (1996). Emergence of a Triple Helix of University- Industry-Government Relations. Science and Public Policy, 23(5), 279-286.

Rogers, R. (2013). “Introduction: Situating Digital Methods” y “The End of the Virtual: Digital Methods.” Digital Methods. Cambridge, MA: The MIT Press. pp 1-38. 

Sábato, J. A. y Botana, N. (1968). La ciencia y la tecnología en el desarrollo futuro de América Latina. Revista de la Integración, (3), 11.

Walliman, N. (2011). “Ch. 6. The nature of data,” “Ch.7. Collecting and analyzing secondary data”, “Ch.8. Collecting primary data.” Research methods: The basics. London: Routledge. pp. 65-127.

12.1    Otras Referencias

GUIAS de las herramientas compartidas para este Módulo. TCAT, Gephi, Database.IO

De Big Data a Smart Data

De Big Data a Smart Data

La aparición de “Big data” ha tenido un desarrollo muy rápido en estos años, a la vez que aparecen otros conceptos junto a éste como el “smart data” y en este artículo, Marcia Zeng presenta su entendimiento con el “que”, “por qué”, “cómo” “dónde” y “cuáles” datos en relación con Smart data y las humanidades digitales.

“QUE” es Smart data: Big data se ha caracterizado por poseer múltiples “V´s”, , Volumen, Velocidad, Variedad y ha sido complementado con Variabilidad y Veracidad. Big Data puede generar VALOR si se utiliza apropiadamente. Esta última “V”, depende del “Smart data” que se puede decir que se define como “la capacidad de lograr conocimientos desde datos veraces, contextualizados, relevantes, cognitivos, predictivos y consumibles en cualquier escala. (Kobielus, 2016, p. 8).


“POR QUË Smart data, los datos en el siglo XXI son el activo más importante que puede generar valor para quienes aprenden a extraerlos y usarlos. Los datos de este siglo son como el petróleo del siglo XVIII, los datos rasos son como el crudo, y hay que refinarlos y procesarlos para generar valor. De acuerdo con el reporte de “Digital Universe” de 2012, únicamente el 3% de la información se encuentra etiquetada, y solamente la mitad de este % está analizada. Por lo tanto, existen muchos datos para ser conocidos, extractados y analizados. Y convertidos en Smart Data

CÓMO transformar Big data en Smart data: existen muchas tecnologías que permiten convertir a Smart data, entre ellas “cognitive computing, deep learning, machine learning, artificial intelligence, predictive analytics, graph databases, machine intelligence, voice processing, semantic technologies, autonomous vehicles, Big Data, data science, Internet of Things (IoT), text analysis, Resource Description Framework (RDF), knowledge graphs, contextual computing, Linked Data, deep reasoning, ontologies, JSON-LD, common sense, natural language processing (NLP), and semantic search” (DATAVERSITY, 2017). Todas estas tecnologías están interrelacionadas. Hoy tenemos ejemplos de su uso en varias disciplinas, “IA” es una de las más avanzadas en este siglo.

QUIËN produce y utiliza Smart data: se han realizado esfuerzos en utilizar Big data con las estrategias de Smart data en varias disciplinas, ciencias naturales, ingeniería, análisis financieros, negocios, medicina entre otros. En las humanidades el mundo de Smart data no ha sido universalmente usado, aunque se han realizado proyectos de investigación en estas ciencias. Zeng, presenta un cuadro resumen de actividades y recursos, así como las tecnologías utilizadas en estas actividades de diversas ciencias.

DONDE está la marca distintiva en las humanidades digitales: para Schöch (2013), la marca distintiva de Big data en las humanidades parece ser un cambio metodológico más que una simple tecnología. La visión de convertir Big data en Smart data, nos lleva de vuelta a la conocida pirámide, “Data-Information-Knowledge-Wisdom (DIKW), dato – no sabemos nada, información- el que, conocimiento – el cómo, y Wisdon  – el porqué. (Zeleny, 1987; Ackoff, 1988), la cual representa una forma básica de entender el mundo. Sin embargo la aproximación a Smart data no es tan simple como replicar la trayectoria DIKW, puesto que Smart Data está basado en metodologías de Big data, las cuáles nos permiten llegar a conocer “unknown-unknowns”, (Borne 2013) (incógnitas desconocidas),en vez de tomar el camino de “Known-unknown”, (incógnitas conocidas).

CUÁL data se puede encontrar para investigación en Humanidades digitales: al tener Big data y Smart data en un contexto de humanidades digitales un concepto clave que se debe tener claro es el uso de “data”, o los datos. Es importante poder distinguir entre “data” y “digital data”, los cuales no son equivalentes. En las fuentes de datos que existen a través de LAMs, por sus siglas en inglés, “Libraries”, “Archives” y “Museums”, y otras instituciones, así como tipos de datos diversos, en naturaleza, calidad, y los más complejos para procesar, se tienen los datos no-estructurados encontrados en documentos y otros tipos de textos digitalizados o no, y en toda clase de formatos.

En el proceso de transformar datos no-estructurados a datos estructurados o semiestructurados, la estrategia de Smart Data conduce a los proveedores de servicios de datos a llegar a las máquinas entendibles y no solamente las máquinas que leen datos. Esto con el fin de procesar más eficientemente datos para las humanidades digitales. Los datos son la entrada a cualquier investigación y las tecnologías que hoy se tienen soportan análisis complejos de datos no estructurados que son los más comunes en las humanidades.

Las tecnologías avanzadas de hoy bajo Big data y Smart data permiten a los investigadores de las humanidades unirse a la era digital con nuevas habilidades, utilizar grandes volúmenes de datos que tal vez estaban ocultos y a reconstruir el pasado.

Preguntas:

¿Cómo lograr una buena transformación los datos no – estructurados en datos para mi investigación?

¿Cómo determinar las incógnitas desconocidas en mi investigación y lograr esa transformación de Big data en Smart data que genere valor para la sociedad?

Referencias

Ackoff, R.L. (1989). From data to wisdom. Journal of Applied Systems Analysis, 16(1), 3–9.

Borne, K. (2013). Big data, small world: Kirk Borne at TEDxGeorgeMasonU [Video file].

Retrieved on December 15, 2016, from https://www.youtube.com/watch?v=Zr02fMBfuRA.

DATAVERSITY Education, LLC. (2017). Smart Data Conference (website). Retrieved on January 12, 2017, from http://smartdata2017.dataversity.net.

Kobielus, J. (2016, June). The evolution of big data to smart data [PowerPoint slides]. Keynote at Smart Data Online 2016.

Schöch, C. (2013). Big? smart? clean? messy? Data in the humanities. Journal of Digital Humanities, 2(3), 2–13.

Zeleny, M. (1987). Management support systems: Towards integrated knowledge management. Human Systems Management, 7(1), 59–70.

Zeng, M. (2017). Smart Data for Digital Humanities, Journal of Data and Information Science, 2(1), 1-12. doi: https://doi.org/10.1515/jdis-2017-0001

Recommend watching the video at https://www.youtube.com/

watch?v=4gIhRkCcD4U).