Extracting Policy Positions from Political Texts Using Words as Data

Titulo

Estimating party positions on immigration: Assessing the reliability and validity of different methods

Autores

Didier Ruedin; Laura Morales

Abstract

We provide a systematic assessment of various methods to position political parties on immigration, a policy domain that does not necessarily overlap with left–right and is characterized by varying salience and issue complexity. Manual and automated coding methods drawing on 283 party manifestos are compared – manual sentence-by-sentence coding using a conventional codebook, manual coding using checklists, automated coding using Wordscores, Wordfish and keywords. We also use expert surveys and the Comparative Manifesto Project (CMP), covering the main parties in Austria, Belgium, France, Ireland, the Netherlands, Spain, Switzerland and the United Kingdom, between 1993 and 2013. We find high levels of consistency between expert positioning, manual sentence-by-sentence coding and manual checklist coding and poor or inconsistent results with the CMP, Wordscores, Wordfish and the dictionary approach. An often-neglected method – manual coding using checklists – offers resource efficiency with no loss in validity or reliability

Palabras-clave

Europe, immigration, party manifestos, party positions, position estimation

Datos

Manifiestos de partidos

Manifesto Project, Encuestas a expertos

283 manifiestos. 8099 quasi-sentences codificadas manualmente

Metodología

codificación manual frase por frase codificación de checklist encuestas a expertos Wordscores Wordfish diccionario automatizado

observan la varianza de las estimaciones y cómo las posiciones están asociadas (no solo cuánto)

Chequeo de validez por convergencia.

Argumento central

Entre los métodos disponibles para medir posiciones de los partidos en manifiestos, las checklists son un método rentable (eficiente y de bajo costo) y con buenas medidas de validez que merece la pena considerar.

Cobertura geográfica

Austria, Bélgica, España, Francia, Irlanda, Países Bajos, Reino Unido y Suiza.

43 elecciones entre 1993 y 2013

Recursos visuales

Tablas

Scatterplots matrix

Resumen del argumento

Comparan el rendimiento de varios métodos para medir las posiciones de los partidos (inmigración e integración de los inmigrantes) a partir de los manifiestos.

Métdos a comparar: codificación manual frase por frase codificación de «lista de comprobación» encuestas a expertos Wordscores Wordfish diccionario automatizado

El principal obstáculo que encuentran es que los manifiestos son heterogéneos y demasiada variación introduce “ruido” en la codificación (manual). Otro tema es el salience y el silence. La codificación manual sentence-by-sentence es muy snesible al salience de los temas y a veces refleja el interés (coyuntural) de un partido en un tema, antes que la posición del partido realmente.

Proponen un mecanismo de “chacklist” en que se codifica el manifiesto como un todo.

De qué se trata?

Un enfoque alternativo consiste en codificar los manifiestos en su conjunto. Los textos políticos se tratan como datos, pero los codificadores utilizan sus propios juicios para determinar qué secciones constituyen pruebas de una determinada postura. Los codificadores expertos leen un manifiesto y utilizan un libro de códigos para asignar una posición general en una serie de ámbitos políticos o ideológicos.

Este enfoque requiere mucho menos tiempo que codificar cada una de las (cuasi)frases y permite global de las posiciones políticas de un manifiesto, de un manifiesto, lo que reduce las fluctuaciones aleatorias aleatorias debidas al estilo de redacción o al énfasis personal del autor o autores del manifiesto. Sin embargo, Sin embargo, al basarse en una evaluación global, la lista de control es sensible a los sesgos del codificador, ya que la información previa sobre el partido puede interferir más que cuando los codificadores examinan (cuasi)frases más cortas.

enfoques automáticos requieren verificación. diccionarios requieren precisión y exhaustividad. expertos no dominan todos los temas. bajo costo y autoridad.

¿Qué hacen?

comparan los resultados de diferentes métodos para posicionar a los partidos (manifiestos) en ciertos temas. la referencia son las encuestas de expertos. respecto a eso observan si la codificación manual (SBS, checklist) o los métodos automáticos (diccionario, wordfish, wordscores) son más eficaces.

¿Cómo lo hacen?

En cada país ubican partidos relevantes (obtuvieron escaños). En algunos casos también partidos antiinmigración sin representación parlamentaria debido al tema en cuestión.

Traducción backwards para manifiestos que no están en inglés.

se codifica solamente temas de migración

Un mecanismo para cada tipo de codificación:

  1. Codificación manual. se aplica un libro de códigos a oraciones naturales o quasi-sentences (partes de una frase con significado independiente).

la posición se deduce a partir de preguntar: ¿cuál es la postura ante la cuestión de la inmigración y la integración cívica?

se puntúa de -1 a +1 «muy restrictivo con los inmigrantes/conservador/residente pro-nacional/mono-cultural» (-1) a «muy abierto a los inmigrantes/progresista/cosmopolita/multicultural» (+1)

Estiman la posición del partido/manifiesto con medias, medianas, medianas interpoladas.

  1. Checklist

codifica manifiesto como un todo se da a los codificadores un cuestionario de 19 preguntas/enunciados los codificadores leen el manifiesto completo evalúan si el manifiesto está de acuerdo o en desacuerdo con los enunciados se toma la media de las respuestas como la posición del partido se toma la media total, pero se puede usar en sub-categorías.

  1. diccionario automático

Yoshikoder diccionario identifica palabras y les da un puntaje. se crea combinando codificación manual (exoertos) y automática traducción reversa posición es resultado de sumar los puntajes de las palabras (positivos menos negativos entre todos los matches)

  1. wordscores y wordfish

usaron manifestos de partidos relativamente extremos como referencia reescalaron el resultado

No tomaron en cuenta partidos que no mencionan el tema

“Salience”: comparan el salience con la posición de los partidos. Asumen que mientras más se habla del tema, más restrictiva es la postura.

Encuestas a expertos fueron usadas de diferentes fuentes. Reescalaron.

media, mediana, mediana interpolada.

Resultados

Asociación: alta entre: expertos, sentence-by-sentence y checklist.

Comparación entre métodos: Checklist es más identifica mejor la variación en los extremos que expertos. comparado con checklist, SBS tiende a amplificar los extremos.

“Estas diferencias están relacionadas con el modo en que se identifican las posiciones. El posicionamiento de los expertos y la codificación frase por frase se basan en las subdimensiones que los partidos destacan en sus declaraciones públicas o manifiestos; la codificación de la lista de control asigna el mismo peso a todas las subdimensiones a las que los partidos podrían no dar el mismo tratamiento.”

Países: los resultados generales se sostienen en el análisis país por país (independientemente de los arreglos institucionales) y en la mayoría de puntos temporales.

Varianza: Métodos automáticos presentan menor desviación típica que los métodos manuales, pero tienen problemas de ‘validez’

Conclusiones

El trabajo ofrece a los investigadores un “mapeo” de la eficiencia de las técnicas/métodos disponibles para estudiar las posiciones de los partidos en ciertos temas. Algunos de ellos presentan resultados diferentes cuando se trata de las posiciones extremas.

Se presenta el problema de que había poco material para los mecanismos automáticos. Usar CMP (antes de 2014) es la peor estrategia. Salience demostró ser un método relativamente eficiente.

Aunque los métodos automatizados tienen la ventaja de su bajo coste y de la brevedad de los plazos de procesamiento de los datos, presentan el inconveniente de que pueden dar lugar a estimaciones aparentemente erróneas de las posiciones en ámbitos políticos complejos y específicos, especialmente (pero no sólo) cuando los datos textuales son escasos. Por el contrario, los métodos de codificación manual (y las encuestas a expertos) requieren mucho más tiempo, son más costosos y menos fiables, pero dan lugar a estimaciones más válidas. estimaciones más válidas.

La solución que proponen es el “checklist”. Máxima eficiencia con menor gasto de recursos (10-29% del tiempo de codificación manual SBS).