dilluns, 30 de maig del 2016

AntConc (1ª part): anàlisi d'un article



Gairebé arribant al final d’aquesta assignatura, em queda per exposar al blog el funcionament del programa AntConc, un programa creat per Laurence Anthony que serveix per a realitzar anàlisis lingüístics de conjunts de texts (corpus lingüístic), en format .txt, bàsicament, com he fet jo.

Per dur a terme aquest treball he escollit un blog de política Politikon, concretament la seva secció de migracions. D'aquí, he seleccionat un article, Europa ante la crisis de refugiados: ¿Dónde están las soluciones en origen?, Sergio Maydeu-Olivares 25/05/2016).


Amb aquest article, he comprovat les paraules més i menys freqüents que apareixen en aquest text, primer sense filtrar i després filtrades (amb stopwords).



 
Amb l’aplicació de la fórmula types-token ration, en aquest cas 467/791=0.5903, també podem saber que aquest text té una riquesa lèxica mitja, ja que dins el rang 0-1, com més s'apropa a 1 més ric és en lèxic.

La llista de freqüències obtingudes ens permet ara estudiar i analitzar les dades. Podem esbrinar doncs, sense gaires problemes, que tracta aquest article tenint en compte la repetició de paraules que hi apareixen: (1)crisi (27 vegades), (2)refugiats (15 vegades),(3)conflictes (12 vegades),(4)Europa (12 vegades),(5) milions (9 vegades),(6)Síria (9 vegades),(7)desplaçats (8 vegades), etc.
El programa també ens permet fer una anàlisi del corpus de paraules conjuntes, és a dir, de la freqüència en què apareixen en el text dues o més paraules juntes. Aquests N-gramas, entre altres coses, ens permeten classificar texts per millorar la recerca de documents i classificació així com detecció de plagis de documents.  




Bibliografia

-Navarro Colorado, Borja. Guía rápida de análisis de corpus (con AntConc). Universidad de Alicante. 2014.

Cap comentari:

Publica un comentari a l'entrada