El desarrollo científico y tecnológico ha permitido el progreso de la informática conjuntamente con el acceso y la manipulación de la información, tanto de los textos escritos como de transcripciones de diálogos, con una rapidez, fiabilidad y facilidad impensables hasta los últimos años. Esto ha traído consigo nuevos entornos comunicativos más híbridos y una lógica a nuevos principios y criterios de funcionamiento que agilizan todos los procesos informativos.
Según el Diccionario de la Real Academia Española (DRAE, 22 Edición), un corpus es “conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación” En particular, los corpus reflejan el contexto en que se utilizan la lengua e intentan ser un modelo de realidad lingüística en el mundo que también es tributario directo de la revolución digital; esto ha permitido que los corpus sean más grandes y representativos en diferentes campos de la investigación.
Los corpus digitales se han convertido en un paradigma importante para las Humanidades y Ciencias Sociales dando fortaleza a las investigaciones de diferentes disciplinas como la historia, la sociología, las ciencias políticas y la lingüística textual logrando utilizar un conjunto de métodos desarrollados por tendencias que comparten intereses comunes y objetivos que se cruzan: la lingüística del corpus y las estadísticas de texto además de desarrollarlo en medio de la revolución digital transformando nuestra relación con la dimensión empírica del lenguaje.
La estadística de texto y la lingüística de corpus permiten a los investigadores combinar enfoques cuantitativos y cualitativos; la estructura general del corpus puede examinarse cuantitativamente, mientras que los contextos locales de las unidades lingüísticas observadas se determinan mediante un enfoque más cuantitativo.
El autor manifiesta que, durante el desarrollo de este artículo, utilizaron herramientas de estadísticas de texto permitiendo analizar las frecuencias y medida que pueden interpretarse dentro o fuera del corpus. Además, lo desarrolla en unos discursos presidenciales de Francia bajo la V República utilizando software como el TXM como herramienta que ofrece búsqueda multinivel (palabras, lemas y categorías morfosintácticas, gracias a un Corpues Query Processor que también permite el uso de expresiones regulares).