Diapositivas utilizadas en mi charla a los alumnos del máster Universitario en Sistemas Inteligentes de la Universitat Jaume I de Castellón. En la charla presento dos aproximaciones a los problemas de author profiling de identificación de sexo y edad, y de variedad del lenguaje, haciendo hincapié en la doble perspectiva universidad-empresa cuando se trata del rendimiento de los métodos aplicados: precisos y/o rápidos.
4. ¿Cuál es el perfil de la comunidad de usuarios de tu organización?
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
5. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Arabic Author Profiling for Cyber Security
Aim: Detection of suspicious threatening messages and their author profiling.
Fund: Qatar National Research Fund NPRP 9-175-1-033 (2017-2020)
Carnegie Mellon University Qatar
POTENTIAL
THREATENING
MESSAGE
Deceptive
or ironic?
AUTHOR
PROFILING
DISCARD
PROFILE
YES
NO
9. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
AUTORES CORPUS IDIOMA APROXIMACIONES
Argamon et al. 2003
Koppel et al. 2003
BNC inglés
● Palabras de función
● POS y n-gramas POS
● Signos de puntuación
● Diccionario
● BOW
● n-gramas palabras y caracteres
● LIWC
● ¿y las emociones?
● ¿y las estructuras del lenguaje?
● ¿y la informalidad de los medios
sociales?
Schler et al. 2006
Goswami et al. (2009)
Argamon et al. (2009)
...
blogs inglés
Peersman et al. (2011)
Nguyen et al. (2011-13)
Schartz et al. (2013)
...
Netlog
Twitter
Facebook
holandés
inglés
inglés
Pennebaker (2003-...)
● Relación entre uso del lenguaje y rasgos de la persona (edad, sexo, ...)
● LIWC: Linguistic Inquiry and Word Count
Los orígenes
10. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
La experiencia
2013-2019 PAN@CLEF Author profiling:
- Age, gender, personality traits and language
variety identification in Arabic, Spanish, Dutch,
English, Italian and Portuguese.
- Robots vs. Human identification, besides
gender identification in the last case in
English and Spanish.
● Estilísticas
● Emoticonos
● POS
● n-gramas
● LSA
● Diccionario
● IR
● Colocaciones
● 2º orden
● …
● ¿y las
emociones?
2016-2017 PAN@FIRE Author profiling:
- Personality detection in source code
(Java/Python)
- Gender identification in Russian.
- Native language identification in Bengali, Hindi,
Kannada, Malay, Tamil and Telugu.
2017-2018 STANCECAT
@IBEREVAL
Stance identification towards the Catalan
independence and the Referendum in Catalan
and Spanish, and the gender of the authors.
25. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
● Partiendo de nuestra hipótesis:
discurso + emociones --> sexo y edad
● Pretendemos modelar su papel no sólo en base a su frecuencia de aparición, sino
por su posición con y en relación con el resto de elementos del discurso:
eg. preposición + determinante + nombre + adjetivo
● Limitaciones del estado del arte:
○ Modelos basados en frecuencias no capturan la relación entre elementos.
○ Modelos basados en n-gramas limitados por la elección de la ventana n.
○ Modelos de análisis del discurso fallan en textos altamente informales.
(Rangel & Rosso, IP&M 2016)
Hipótesis
26. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Y los siguientes recursos:
Dado un texto:
He estado tomando cursos en línea sobre temas valiosos que disfruto
estudiando y que podrían ayudarme a hablar en público.
Freeling http://nlp.lsi.upc.edu/freeling
WordNet Domains + EuroWordNet http://wndomains.fbk.eu
http://www.illc.uva.nl/EuroWordNet
Clasificación semántica de verbos Levin, B. English Verb Classes and Alternations. University of Chicago Press, Chicago. (1993)
Lexicón de polaridad Hu, M., Liu, B. Mining and Summarizing Customer Reviews. In: Proceedings of the ACM SIGKDD
International Conference on Knowledge Discovery & Data Mining, Seattle, Washington, USA, pp.
168-177 (2004)
Lexicón de emociones Sidorov,G.,Miranda,S.,Viveros,F.,Gelbukh,A.,Castro,N.,Velásquez,F.,Díaz,I.,Suárez, S., Treviño, A.,
Gordon, J.: Empirical Study of Opinion Mining in Spanish Tweets. 11th Mexican International
Conference on Artificial Intelligence, MICAI, pp. 1-14 (2012)
Construcción de EmoGraph
63. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Dado un grafo G={N,E} dónde,
○ N es el conjunto de nodos
○ E es el conjunto de ejes
Obtenemos dos conjuntos de características:
○ características basadas en la estructura general del grafo
○ características específicas de los nodos
Características
66. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Estructura del grafo 8 características
ENRatio
Degree
WeightedDegree
Diameter
Density
Modularity
Clustering
PathLength
Ratio nodos-arcos
Grado medio del grafo
Grado medio ponderado
Diámetro del grafo
Densidad del grafo
Grado de modularidad
Coeficiente de agrupamiento
Longitud media del camino
Específicas de los nodos 944 características (472 nodos)
BTW-xx
EIGEN-xx
Valor de intermediación (betweenness) de cada nodo (xx)
Valor de vector propio (eigenvector) de cada nodo (xx)
Características Rangel-S 59 características
Representación vectorial EmoGraph
67. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Pos. Equipo Accuracy
1 EmoGraph 66,24%
2 Pastor 65,58%
3 Santosh 64,30%
4 Rangel-S 63,50%
5 Haro 62,19%
6 Rangel-nG 61,62%
...
21 Mechti 5,12%
Pos. Equipo Accuracy
1 Santosh 64,73%
2 EmoGraph 63,65%
3 Pastor 62,99%
...
7 Rangel-nG 60,16%
...
9 Rangel-S 57,13%
...
24 Gillam 47,84%
Resultados de identificación de Sexo y Edad (PAN-AP'13)
69. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
● Características eigen en sexo vs. betweenness en edad.
● Verbos, nombres y adjetivos en sexo vs. preposiciones y signos de
puntuación en edad.
● Alta presencia de características de emoción en identificación de sexo.
Características más discriminantes
72. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Conclusiones
● EmoGraph (grafos + emociones) permite corroborar nuestra hipótesis:
discurso + emociones --> edad y sexo
○ Independiente del medio social y del idioma.
● En línea con los estudios referentes:
○ El sexo difiere en el modo de organizar el discurso en torno a
determinadas categorías gramaticales, temas y emociones.
○ La edad difiere en el modo de articular el discurso, según el modo de
conectar sus diferentes elementos.
● EmoGraph requiere de un mínimo de palabras para funcionar de manera
óptima.
● Su complejidad computacional permite aplicarlo a entornos Big Data como
son los medios sociales.
74. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Motivación: En los medios sociales no existen fronteras geográficas. ¿Cómo
podemos segmentar por regiones? (no sólo marketing, también lingüística
forense/seguridad).
- ¿Cómo se distribuye geográficamente la opinión pública?
- ¿Qué influencias culturales tiene el autor de una nota de amenaza?
El problema puede consistir discriminar entre variedades de una misma
lengua.
Se considera una tarea de author profiling: influencia de la idiosincrasia
cultural en el autor (e.g. diferentes expresiones, vocabulario…).
Restricción: Big Data 4Vs (velocidad, volumen, variedad, valor)
Identificación de variedad del lenguaje
75. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
¿Nos diferenciamos los hablantes de una lengua, en sus distintos dialectos o
variedades, al momento de expresar nuestras emociones?, ¿o las
variaciones se producen a otro nivel, como por ejemplo en las palabras
usadas para hacerlo?
emociones (EmoGraph) vs. contenido
(Rangel et al., CICLing 2016)
Hipótesis
76. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Paso 1. Matriz de pesos tf-idf de los términos de los documentos:
Paso 2. Peso de los términos dependiente de la clase:
Paso 3. Representación de los documentos dependiente de la clase:
- Cada columna es un término t del vocabulario
- Cada fila representa a un documento d
- wij es el peso tf-idf del término j en el documento i
- representa la clase c asignada al documento i
Low Dimensionality Statistical Embedding (LDSE)
77. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
avg El peso medio de un documento se calcula como la suma de todos los pesos W(t,c) de
sus términos, dividido por el número total de términos del vocabulario en el documento.
std La desviación estándar de los pesos de un documento se calcula como la raíz cuadrada
de la suma de todos los términos W(t,c) menos la media.
min El peso mínimo de un documento es el menor valor de los pesos W(t,c) del documento.
max El peso máximo de un documento es el mayor valor de los pesos W(t,c) del documento.
prob El peso global de un documento es la suma de pesos W(t,c) de los términos del
documento dividido por el número total de términos del documento.
prop Proporción entre el número de términos del vocabulario presentes en el documento y el
número total de términos en el documento.
Low Dimensionality Statistical Embedding (LDSE)
NOTA: En la versión 2 incorporamos Kurtosis, Skewness y momentos.
79. Complexity of obtaining the features:
Number of features:
Representation # Features
LDSE (l=5) 30
Skip-gram 300
SenVec 300
EmoGraph 1,100
BOW 10,000
Char 4-grams 10,000
tf-idf 2-grams 10,000
l: number of varieties
n: number of terms of the document
m: number of terms in the document that
coincides with some term in the vocabulary
n m & l<<n
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Análisis de costes
80. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Robustez frente a otros idiomas (DSLCC)
Lengua LDSE Skip-gram SenVec
Búlgaro 99,9 100 100
Macedonio 99,9 100 100
Español-España 84,7*
82,1 86,3*
Español-Argentina 88,0 90,3*
87,6
Portugués-Portugal 87,4*
83,2 90,0*
Portugués-Brasil 90,0*
94,5*
87,6
Otras lenguas 99,9 99,8 99,8
Lengua LDSE Skip-gram SenVec
Bosnio 78,0*
80,3 74,4
Croata 85,8 85,9 84,7
Serbio 86,4*
75,1 91,2
Indonesio 99,4 99,3 99,4
Malayo 99,2 99,2 99,8*
Checo 99,8 99,9 99,8
Eslovaco 99,3 100*
99,3
*
Resultados significativos con respecto al siguiente resultado
81. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Robustez frente a otros idiomas (PAN-AP'17)
Árabe
(l=4)
Español
(l=7)
Inglés
(l=5)
Portugués
(l=2)
Media
LDR 82.50% 96.25% 89.96% 98.75% 91.87%
Basile et al. 83.13% 96.21% 89.88% 98.13% 91.84%
Tellez et al. 82.75% 95.54% 90.04% 98.50% 91.71%
Martinc et al. 82.88% 95.25% 86.88% 98.38% 90.85%
Markov et al. 81.69% 94.39% 87.67% 98.50% 90.56%
López-Monroy
et al.
81.19% 94.32% 85.67% 98.25% 89.86%
Miura et al. 81.25% 92.71% 87.17% 98.13% 89.82%
Sierra et al. 79.50% 94.50% 83.92% 98.50% 89.11%
Schaetti 81.31% 93.36% 81.50% 98.38% 88.64%
...hasta un total de 22 participantes
86. Dataset Genre Lang Age Pos. Gender Pos. Nº
Partici.
EmoGraph LDSE EmoGraph LDSE
PAN-AP-2013 Social Media ES 66,24* 62,70 3 63,65* 60,75 6 21
PAN-AP-2014 Social Media ES 45,9 38,16 6 68,6* 56,89 9 9
PAN-AP-2014 Social Media EN 34,2* 31,63 6 53,4 51,42 9 10
PAN-AP-2014 Blogs ES 46,4 46,43 3 64,3 50,00 5 9
PAN-AP-2014 Blogs EN 46,2 38,46 3 71,3 67,95 1 10
PAN-AP-2014 Twitter ES 58,9 56,67 2 73,3 63,33 2 8
PAN-AP-2014 Twitter EN 45,5 52,60 1 72,1 67,53 3 9
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
LDSE en identificación de sexo y edad
87. LDSE outperforms common state-of-the-art representations by 35%
increase in accuracy.
LDSE obtains competitive results compared with two distributed
representation-based approaches that employed the popular continuous
Skip-gram model.
LDSE remains competitive with different languages and media.
The dimensionality reduction is from thousands to only 6 features per
language variety. This allows to deal with big data in social media.
We have applied LDSE to age and gender identification with competitive
results with respect to the well-behaved EmoGraph.
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Conclusiones
89. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Foros de evaluación
2013-2019 PAN@CLEF Author profiling:
- Age, gender, personality traits and language variety identification
in Arabic, Spanish, Dutch, English, Italian and Portuguese.
- Robots vs. Human identification, besides gender
identification in the last case in English and Spanish.
2016-2017 PAN@FIRE Author profiling:
- Personality detection in source code (Java/Python)
- Gender identification in Russian.
- Native language identification in Bengali, Hindi, Kannada, Malay,
Tamil and Telugu.
2017-2018 STANCECAT
@IBEREVAL
Stance identification towards the Catalan independence and the
Referendum in Catalan and Spanish, and the gender of the
authors.
92. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Corpus
(EN) English (ES) Spanish
Bots
Humans
Total Bots
Humans
Total
F M F M
Training Training 1,440 720 720 2,880 1,040 520 520 2,080
Development 620 310 310 1,240 460 230 230 920
Total 2,060 1,030 1,030 4,120 1,500 750 750 3,000
https://s3.amazonaws.com/autoritas.pan/pan19-author-profiling-training-2019-02-18.zip
Ask francisco.rangel@autoritas.es for the PASSWORD
93. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Corpus
The uncompressed dataset consists in a folder per language (en, es). Each
folder contains:
● A XML file per author (Twitter user) with 100 tweets.
○ The name of the XML file correspond to the unique author id.
● A truth.txt file with the list of authors and the ground truth.
○ truth-train.txt and truth-dev.txt
The format of the XML files is:
94. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Corpus
The format of the truth.txt file is as follows.
● The first column corresponds to the author id.
● The second and third columns contain the truth for the human/bot and
bot/male/female tasks.
95. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Evaluation
Your software must take as input the absolute path to an unpacked dataset,
and has to output for each document of the dataset a corresponding XML
file that looks like this:
The naming of the output files is up to you. However, we recommend to use
the author-id as filename and "xml" as extension.
IMPORTANT! Languages should not be mixed. A folder should be created
for each language and place inside only the files with the prediction for this
language.
101. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
CARACTERÍSTICAS ESTILÍSTICAS
● Frecuencias (palabras únicas, nº palabras,
mayúsculas…)
● Signos de Puntuación
● Categorías Gramaticales con Información
Morfosintáctica
EMOCIONES
● Emoticonos
● 6 emociones básicas de Ekman
(alegría, sorpresa, disgusto, enfado,
tristeza, miedo) (SEL) (Sidorov et at., 2012)
+
Conjunto de 59 características basadas en la combinación de:
Nos referiremos a esta representación como Rangel-S
Nuestra propia experiencia
102. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Nuestra propia experiencia
Emociones y Sexo en Facebook
(Rangel & Rosso, ESSEM 2013)
Emociones, Sexo y Edad en PAN
(Rangel & Rosso, NLPCS 2013)
Emociones y Tendencias en Twitter
(Volgmann et al., ECAI 2014)
Emociones, Sexo e Ironía en Facebook
(Rangel et al., LREC 2014)
- Las emociones permite detectar tendencias.
- Estas características permiten identificar:
- Emociones.
- Sexo y edad.
- Hemos descubierto* que:
- Las mujeres usan más emociones.
- Los hombres son más irónicos.
- En política se expresan:
- Más emociones negativas.
- Más ironía.
Recursos construidos:
- Bárcenas (Twitter)
- EmIroGeFB (Facebook)
*en el dataset EmIroGeFB
103. Corpus PAN-AP13
103
● Social Media en español. Gran tamaño, mucho ruido.
Edad*
Nº de Autores
Entrenamiento Pruebas
10s 2.500 288
20s 42.600 4.608
30s 30.800 3.264
TOTAL 75.900 8.160
*Equilibrado por sexo
104. Aproximación combinada EmoGraph
104
● Características:
○ Rangel-S
○ n-Gramas de POS (Rangel-nG)
○ EmoGraph
● Algoritmos de aprendizaje automático (Weka):
● Medida de evaluación:
○ Accuracy
○ t-Student (H0
:p1
=p2
)
Identificación de sexo Máquinas de Vectores Soporte
Núcleo Gausiano: g=0.20 c=1
Identificación de edad Máquinas de Vectores Soporte
Núcleo Gausiano: g=0.08 c=1
105. Corpus PAN-AP14
105
● Corpus PAN-AP14 - Múltiples medios. Inglés y español.
Edad*
Social Media Blogs Twitter Revisiones
Inglés Español Inglés Español Inglés Español Inglés
18-24 680 150 10 4 12 4 74
25-34 900 180 24 12 56 26 200
35-49 980 138 32 26 58 46 200
50-64 790 70 10 10 26 12 200
65+ 26 28 2 2 2 2 147
TOTAL 3.376 566 78 54 154 90 821
*Equilibrado por sexo. Se muestra sólo test(Rangel & Rosso, CLEF 2015)
106. EmoGraph: Robustez frente a medios e idiomas
106
● Características:
○ 6-gramas caracteres (1.000 más frecuentes) + EmoGraph
● Algoritmos de aprendizaje automático (Weka):
● Medida de evaluación:
○ Accuracy
Identificación de sexo Twitter inglés Regresión Logística
Identificación de sexo y edad revisiones y
social media en inglés
Máquinas de Vectores Soporte
Identificación de edad Twitter español Máquinas de Vectores Soporte
El resto Adaboost (Decision Stump)
107. Dataset - EmIroGeFB
● Etiquetados con las 6 emociones básicas
de Ekman.
● Tres anotadores. Concordancia: 14,55%
107
4 páginas por tema
Miles de posts
200 comentarios por
página y sexo. Total
1.200 comentarios
Resultados
● r=18 y accuracy=59% - Valor comparativo al PAN.
Conclusiones
● Las características usadas para identificar emociones,
permiten identificar el sexo, lo que sugiere cierta
correlación entre el uso de emociones y el sexo del
autor.
MUJERES HOMBRES
Determinante 6,81 7,74
Interjección 0,18 0,30
Preposición 6,25 5,85
Pronombres 2,24 2,67
Emociones
● Etiquetados con las 6 emociones básicas de Ekman.
● Tres anotadores. Concordancia: 14,55%
Emociones y Sexo en Facebook (Rangel & Rosso, ESSEM 2013)
108. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Características Accuracy
F + P 52,92%
C 55,42%
F + P + C 56,25%
F + P + C + E + SEL 59,09%
Simple Graph 50,83%
Complete Graph 51,92%
Semantic Graph 55,01%
EmoGraph 65,96% z0.05
= 3.4764 >> 1.960
LEYENDA
- F: Frecuencias
- P: Signos de puntuación
- C: Categorías gramaticales
- E: Emoticonos
- SEL: Lexicón emociones
- Simple Graph: Grafo categorías
gramaticales
- Complete Graph: Simple + info.
morfosintáctica
- Semantic Graph: Complete + info.
semántica
- EmoGraph: Semantic + emociones
Contribución de EmoGraph en EmIroGeFB
110. LDSE: Representaciones del estado del arte
110
● Modelos basados en n-gramas.
● Iteramos n entre 1 y 10.
● Seleccionamos los 1.000, 5.000 y 10.000 n-gramas más frecuentes (o de
mayor peso).
● Los mejores resultados se obtienen con:
○ 4-gramas de caracteres; los 10.000 más frecuentes.
○ 1-gramas de palabras (bag-of-words); los 10.000 más frecuentes.
○ 2-gramas de palabras; los 10.000 con mayor tf-idf.
111. LDSE: Representaciones distribuidas
111
Dos variantes del modelo skip-gramas continuo de Mikolov et al.:
- Skip-gram
- Vectores de frases (SenVec)
(Franco et al., CLEF 2015)
112. Significance of the results wrt. the two
systems with the highest performance
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Efecto del algoritmo de aprendizaje
113. Accuracy obtained after removing words with frequency equal or lower than n
(a) Continuous scale (b) Non-continuous scale
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Efecto del preprocesamiento en el rendimiento
114. Number of words after removing those with frequency equal or lower than n,
and some examples of very infrequent words.
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Efecto del preprocesamiento en el tamaño
115. Accuracy obtained with different combinations of features
AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Contribución de las características
116. DSLCC corpus
116
Grupo Lengua Código
Eslavo sudoriental Búlgaro
Macedonio
bg
mk
Eslavo
sudoccidental
Bosnio
Croata
Serbio
bs
hr
sr
Eslavo occidental Checo
Eslovaco
cz
sk
Español Argentino
Peninsular
es-AR
es-ES
Portugués Brasileño
Europeo
pt-BR
pt-PT
Austranesio Indonesio
Malayo
id
my
Otros xx
Entrenamiento Desarrollo Pruebas
252.000 28.000 14.000
DSLCC
● Frases extraídas de noticias.
● Frases de entre 20 y 100 tokens.
● Número de instancias por
conjunto:
(Franco et al., DSL 2015; Fabra et al., DSL 2015)
(Zampieri et al., 2014)
117. CMUQ corpus
117
Variedad Región Variedad Región
Algeria Maghreb Palestine
Jordan
Levantine
Egypt Egypt Qatar Gulf
Iraq Iraq Saudi Arabia Gulf
Kuwait Gulf Sudan Maghreb
Lebanon
Syria
Levantine Tunisia Maghreb
Libya Libya UAE Gulf
Morocco Maghreb Yemen Gulf
Oman Gulf
Entrenamiento Pruebas
1 170 360
● 22 países árabes
○ 15 variedades
● 102 autores por variedad
○ 78 entrenamiento /
24 evaluación
● Más de 2000 tuits por autor
● Etiquetado con:
○ Sexo (mujer / hombre)
○ Edad (25-, 25-35, 35+)
(Zaghouani et al., 2018)
119. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
Referencias
● Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at PAN 2013. In:
Forner P., Navigli R., Tufis D. (Eds.)Notebook Papers of CLEF 2013 LABs and Workshops. CEUR-WS.org, vol. 1179
(2013)
● Rangel, F., Rosso, P., Chugur, I., Potthast, M., Trenkmann, M., Stein, B., Verhoeven, B., Daelemans, W. Overview of the
2nd AuthorProfiling Task at PAN 2014. In: Cappellato L., Ferro N., Halvey M., Kraaij W. (Eds.) CLEF 2014 Labs and
Workshops, Notebook Papers. CEUR-WS.org, vol. 1180, pp. 898-827. (2014)
● Rangel F., Rosso P., Potthast M., Stein B. (2017). Overview of the 5th Author Profiling Task at PAN 2017: Gender and
Language Variety Identification in Twitter. In: Cappellato L., Ferro N., Goeuriot L, Mandl T. (Eds.) CLEF 2017 Labs and
Workshops, Notebook Papers. CEUR Workshop Proceedings. CEUR-WS.org, vol. 1866. (2017)
● Rangel F., Rosso P. On the Impact of Emotions on Author Profiling. In: Information Processing & Management
52(1):73-92 (2016)
● Rangel, F., Rosso, P., Franco, M. A Low Dimensionality Representation for Language Variety Identification. In:
Proceedings of the 17th International Conference on Intelligent Text Processing and Computational Linguistics
(CICLing’16), Springer-Verlag, (arXiv:1705.10754) (2016)
● Zampieri, Marcos and Tan, Liling and Ljubeˇsi ́c, Nikola and Tiedemann, J ̈org. A reporton the DSL shared task 2014.
Proceedings of the first workshop on applying NLP toolsto similar languages, varieties and dialects, pp. 58–67 (2014)
● Zaghouani, Wajdi and Charfi, Anis. ArapTweet: A Large MultiDialect Twitter Corpusfor Gender, Age and Language
Variety Identification. In Proceedings of the 11th Inter-national Conference on Language Resources and Evaluation
(LREC), Miyazaki, Japan (2018)