Gairebé arribant al final d’aquesta assignatura, em queda per
exposar al blog el funcionament del programa AntConc, un programa creat per Laurence Anthony que serveix per a
realitzar anàlisis lingüístics de conjunts de texts (corpus lingüístic), en
format .txt, bàsicament, com he fet jo.
Per dur a terme aquest
treball he escollit un blog de política Politikon, concretament la seva secció de migracions. D'aquí, he seleccionat un
article, Europa ante la
crisis de refugiados: ¿Dónde están las soluciones en origen?, Sergio
Maydeu-Olivares 25/05/2016).
Amb aquest article, he
comprovat les paraules més i menys freqüents que apareixen en aquest text, primer sense
filtrar i després filtrades (amb stopwords).
Amb l’aplicació de la fórmula types-token
ration, en aquest
cas 467/791=0.5903, també podem saber que aquest text té una riquesa lèxica mitja, ja que dins el rang 0-1, com més s'apropa a 1 més ric és en lèxic.
La llista de freqüències obtingudes ens permet ara estudiar i analitzar
les dades. Podem esbrinar doncs, sense gaires problemes, que tracta aquest article tenint en compte la repetició de paraules que hi apareixen: (1)crisi (27 vegades), (2)refugiats (15 vegades),(3)conflictes (12 vegades),(4)Europa (12 vegades),(5) milions (9 vegades),(6)Síria (9 vegades),(7)desplaçats (8 vegades), etc.
El programa també ens
permet fer una anàlisi del corpus de paraules conjuntes, és a dir, de la
freqüència en què apareixen en el text dues o més paraules juntes. Aquests N-gramas, entre
altres coses, ens permeten classificar texts per millorar la recerca de
documents i classificació així com detecció de plagis de documents.
Bibliografia
-Navarro
Colorado, Borja. Guía rápida de análisis
de corpus (con AntConc). Universidad de Alicante. 2014.
Cap comentari:
Publica un comentari a l'entrada