viernes, diciembre 16, 2011

Folksonomías: Una aguja en un pajar
Fortalezas y debilidades del etiquetado

Las folksonomías irrumpen en la Red como parte del fenómeno de la web 2.0. Los productores de contenidos hipersegmentados sin duda necesitan mejorar la eficiencia para que otros puedan encontrarlos, y son los tags las herramienta más adecuada para ello. Sin embargo, la clasificación masiva de contenidos presenta varias debilidades relevantes a la hora de asegurar calidad en las búsquedas.

Más dos hormigas con otras dos hormigas
Son principio de una sociedad.
Energía y coraje, pasad este mensaje.

Garinei-Giovannini (El Diluvio que Viene)

Una aguja en un pajar

Mi diario de viaje, el video didáctico que alguien preparó para explicar a sus alumnos un fenómeno climático, esa crítica despiada a un concierto de un artista del under, el testimonio de una víctima de la inseguridad urbana, tu opinión sobre la película que se estrenó ayer, la fotografía casual de una esquina cualquiera. Como agujas en un pajar, estos pequeños contenidos pueden llegar a ser muy difíciles de encontrar aún cuando representen exactamente lo que estamos buscando. ¿Puede existir un orden tras el caos aparente con el que se acumula la información en la web?  Intuímos que sí, aun cuando sospechemos que mucho falte por hacer.

Antes de la proliferación de las computadoras personales, la mayor parte de la información accesible, se componía de trabajos cuyo contenido era identificado y ordeando por expertos a través de vocabularios contolados, frases y términos que permitían encontrar la información buscada. Pero cuando la web 2.0  dio la oportunidad a muchísimos usuarios de transformarse en productores de contenidos, el ritmo de acumulación de información comenzó a expandirse más velozmente aún. En la actualidad, la información disponible para el público es masiva y generalmente no ha sido evaluada ni controlada, simplemente, porque es por lejos mucha más de la que los especialistas pueden abarcar.

Lost & Found

En la descripción de la dinámica de este proceso, Wichowski (2009) propone una intersante analogía tomando como referencia el modelo evolucionista: el entorno informacional (el medioambiente), en constante modificación, demanda que los contenidos (individuos) se organicen a través de sistemas de clasificación (mecanismos adaptativos) para poder así, ser hallados (y  asegurar su supervivencia). Mientras que en la naturaleza, los individuos compiten por los recursos, en la web, la competencia esta dada por alcanzar la posiblidad de que alguien pueda encontrarlos en el inmenso pajar en el que se encuentran distribuídos. En efecto, cuando los contenidos no pueden ser encontrados, aún cuando se trate de información relevante y significativa para el usuario, el desecuentro es equivalente al olvido y con él, la extinción: lo que no encontramos es como que no existiera.  Se trata de una suerte de "selección natural" de los contenidos, en donde los mejor clasificados serán los que tendrán mayores oportunidades de sobrevivir.

Entonces... ¿Cuántas fuentes valiosas podrían no ser encontradas? Sin identificación, información potencialmente útil corre el riesgo de no ser reconocida, y consecuentemente de ser subutilizada. ¿Cómo rotular entonces esta información de modo que pueda ser identificada por quién la pudiera estar necesitando? La información masiva, requiere necesariamente un sistema masivo de clasificación. Es pues en este escenario, en el que irrumpen las folksonomías.

Las folksonomías surgen como una respuesta a este problema en el conexto de un crecimiento expansivo de los contenidos sin precedentes. En rigor, el término folksonomía es un neologísmo atribuído a Tomas Wander Wal, que resulta de unir los conceptos de "volk" (pueblo) y "taxonomía" ("taxis"-clasificación- y "nomos" -ley-). Las folksonomías son entonces, un sistema de clasificación masivo cuyo objeto es el de crear algún orden para un entorno en constante movimiento. Siguiendo la metáfora evolucionista, se trata de una mutación que tal vez posea algunas ventajas adaptativas. Pero antes de argumentar en favor de esta conclusión, hagamos un poco de historia...


Organización jerárquica de la información

El problema de organizar contenidos de modo que estos puedan ser hallados eficientemente, es un un asunto de larga data. Quizá la forma más tradicional de organización de la información, sean los sistemas jerárquicos en donde los ítems son categorizados en clases cuyas subclases comparten propiedades inherentes a las clases de las cuales derivan.


En este tipo de estructuras existen rígidas reglas que determinan inclusión o exclusión, de manera tal que la ambigüedad es minimizada. Pero esta clara ventaja en algunos contextos puede presentar incovenientes en algunos casos: Imaginemos una clasificación de libros en una gran librería... podemos encontrar grandes categorías como "edición de lujo" y "edición en rústica", y en este caso serían claramente excluyentes:



Pero si apareciera una nueva categoría, el sistema rígido no tendrá lugar para incluir esta nueva clasificación.  Imaginemos ahora que en nuestra ordenada librería, irrumpe el rubro "libros usados" o "libros electrónicos". ¿En qué categoría los ubicaríamos? Sin duda, deberíamos crear nuevas clases. Adicionalmente observaremos que al menos una de estas categorías ya no sería absolutamente excluyente.





Sin duda, la irrupción de una nueva variante exigiría una adaptación organizativa. En este caso, una estructura en árbol, resolvería de momento el problema de la clasificación:





En cualquier caso, el común denominador de ambas formas de organización es la rigidez de su estructura. Frente a la aparición de cambios, la organización no ofrece la posibilidad de una adaptación espontánea.


Organización en estructuras graduadas

El concepto de "semejanza familiar" de Ludwig Wittgenstein resulta interesante al tiempo de descubir una nueva forma de organización. Lo novedoso de este concepto implica que no todos los miembros de las clases son igualmentes representativas de la clase superior. Por ejemplo, "avión" es un "medio transporte" más prototípico que "monopatín". En este tipo de organización, en vez asignar parámetros estrictos que todos los miembros de la clase deben cumplir, se hablita una relación graduada en la cual se determina si los miembros de una clase son más o menos típicos, dependiendo de cuantos atributos compartan con los miembros de su clase. Veamos un ejemplo:



Se ha observado que la organización de la información en función de una estructura graduada resulta más próxima al modo en que intuitivamente se clasifican los ítems. Las investigaciones corroboran que al agrupar items, las personas ponen en evidencia una suerte de "economía cognitiva" que les permite reducir la cantidad de información que necesitan procesar para realizar inferencias en relación a los conceptos previos. La gente es más veloz clasificando, renombrando y aprendiendo cuando se le ofrecen ejemplos arquetípicos como referencia: ej: "avión" para "medio de transporte".

De esta forma, conceptualmente, las estructuras graduadas aparecen como un puente entre la inflexible clasificación jerárquica y la fluída práctica del etiquetado colaborativo que se está experimentando en la web (tagging).


El comportamiento de la máquina de etiquetar

Como todos sabemos, actualmente los usuarios se han transformado en  productores de contenidos. Y son las folksonomías el mecanismo que ha permitido a estos mismos usuarios organizar el contenido que producen. Asignando etiquetas ("tags"), los usuarios clasifican contenidos propios y ajenos colocando una palabra clave con el objeto de que dicho contenido sea hallado a través de una búsqueda electrónica. Mientras que los sistemas de organización tradicional, proponen sistemas rígidos con vocabularios controlados, las folksonomías se inspiran en criterios flexibles, más próximos al concepto de "semejanza familiar".

Pese a lo novedoso y auspicioso de este nuevo criterio, la ausencia de reglas al asignar tags, genera sin duda muchos problemas de calidad: impresición, superposición, duplicación, ambigüedad e identificación errónea. ¿Cuantas veces podemos ver en los sitios como you tube, delicious.com o cualquier otro, items cuyos tags distan mucho de lo que nosotros mismos hubiésemos considerado correcto? ¿En que se basa la idea de que un criterio pueda ser más o menos correcto a la hora de etiquetar?

Un criterio interesante para considerar la adecuación de un "tag" es preguntarnos si esa palabra clave que sugerimos podría ser o no un criterio de búsqueda para quién estuviera rastreando ese material. En la medida en que consideremos que es más alta la probabilidad de usar ese término como criterio de búsqueda, es más probable que se trate de una clasificación oportuna. Veámoslo en un ejemplo:




Ver fuente de la imagen capturada


En la imagen podemos ver como el usuario Anto015 clasificó el fragmento de un episodio de la serie ttelevisiva "Cosmos" de Carl Sagan con los tags: "cosmos" "carl" "sagan" y "ciencia".

Analicemos críticamente el etiquetado de este usuario: "cosmos" resulta ambiguo aunque bastante aproximado ya que se trata del título de una serie televisiva mundialmente conocida y sin duda un criterio de búsqueda válido. El segundo y el tercer tag aparecen por separado cuando debería tratarse de uno solo. Así "Carl" genera un tag impreciso y consecuentemente erróneo, mientras que "Sagan" sería mucho más adecuado. Finalmente, el último tag colocado por el usuario, "ciencia" es excesivamente genérico en relación al fragmento que pretende rotular en el que se describe la metodología que utilizó Eratóstenes para calcuar la circunferencia de la tierra en el 240 a.C. En este sentido, una etiqueta más adecuada hubiera sido quizá "Eratóstenes" y en todo caso "historia de la ciencia".

Ahora bien, este nivel de imprecisión en el etiquetado masivo, tiene sus consecuencias a la hora de evaluar las eficiencias de una búsqueda.

Estudios empíricos (citados por Wichowski, 2009) compararon la eficiencia de la búsquedas en delicious.com (emblemático sitio en donde se comparten bookmarks y se utiliza el sistema de tags para la clasificación) con las de los directorios tradicionales. Se ha observado que los directorios han superado a las folksonomías en precisión y recordación. Sin embargo, cuando las folksonomias fueron asociadas a directorios de vocabulario controlado, la conclusión fue que en esta circunstancia, la eficiencia de las búsquedas se incrementaba.

Otros estudios determinaron que los usuarios eligen diferentes tags según estos sean para utilizar a nivel personal o para compartir con la comunidad en donde adicionalmente, acaban resultando muy importantes para que usuarios con intereses afines puedan encontrarse. Los perfile en blogger son muy descriptivos de esta idea, ya que el listado de etiquetas es la clave para tejer una red social entre los bloggers:



Ver fuente de la página capturada


Por otra parte, no puede perderse de vista además, que los tags utilizados en las las folksonomías, carecen de contexto. Esto no es un problema menor y resulta especialmente relevante en términos polisémicos. Imaginemos el caso un tag como "San Martín".  Tenemos al menos tres significados posibles: uno histórico, otro tradicional-religioso y finalmente un tercero, geográfico.

Una de las posibilidades, a fin de resolver el problema de la descontextualización, es que los sistemas procuren vincular las etiquetas a las ontologías. En informática, se llama ontologías a un extenso y riguroso esquema conceptual (dentro de uno o varios dominios) cuyo objetivo es permitir y facilitar la comunicación entre diferentes sistemas. Veamos en nuestro ejemplo, muy sintéticamente como podría construirse la contextualización:


Y finalmente, otra posibilidad para mejorar la calidad de los etiquetados es el desarrollo de sistemas que faciliten la recomendación de tags, lo cual a su vez habilitaría una suerte de entrenamiento para la habilidad de etiquetar contenidos. Ambos aspectos, (el uso de ontologías y la sugerencia de tags) probablemente como caras de una misma moneda y adecuadamente implementados, podrían contribuir a que las folksonomías sean más útiles y precisas.

¿Habrá lugar para todos?

Se ha observado también que los "tags" se generan conforme a ciertas leyes: unas pocas etiquetas son usadas por un grupo grande de usuarios mientras que la gran mayoría es solo utilizada por muy pocos. Este tipo de agrupación en términos de distribución indica que los usuarios no eligen orgánicamente los mismos términos para conceptos equivalentes. Sin embargo, se determinó también que cuando se le sugiere al usuario una etiqueta existente, esta ejerce influencia (en términos de anclaje semántico) sobre su propio etiquetado.


Este tipo de comportamiento parece indicar que la suma de pequeñas acciones puede construir un gran cambio. Esta idea se sustenta en el concepto de "long tail", un tipo de distribución estadística que describe cómo pequeños grupos de consumidores (hipersegmentos) considerados grupalmente, pueden rivalizar con el  poder de los mercados dominantes.



La estela en color amarillo puede
 comprender un área mayor
a la primea parte de la función.



Traducido este concepto a lo que se observa actualmente en la web, podemos considerar que  la "cultura dominante", es la representada por aquellos métodos tradicionales de organización de la información, cuya popularidad es heredada de la presencia histórica en los medios de comunicación unidireccionales. Está claro que el mero reconocimiento de marca, asegura gran parte del tráfico (hablamos de medios como CNN, NCB, The NewYork Times).


En otras palabras, la información publicada en el sitio de la BBC puede ser encontrada fácilmente y no necesariamente deberá depender del etiquetado para organizar los contenidos. Mientras tanto, la información que circula por la periferia, con contenidos desarrollados y etiquetados por solitarios bloggeres solo podría llegar a ser relevante en la medida en que tales contenidos puedan ser encontrados por los interesados. De esta forma, siguiendo el concepto aludido por la distribución de tipo "long tail", la suma de todos estos contenidos "alternativos"  podría llegar a alcanzar un volúmen por lejos mucho más grande que el generado por la "cultura dominante". Para todos ellos, los "tags" son la oportunidad para que otros puedan encontrarlos.

--------


¿Cuál sera entonces el futuro de las folksonomías? Retomando la metáfora evolucionista de Wichowski, la evolución es un lento proceso en donde los cambios solo aparecen en las poblaciones tras varias generaciones. Sin embargo, es sabido que ocasionalmente, el proceso evolutivo esta marcado por ráfagas de rápido desarrollo. Se trata de cambios abruptos que no suelen aparecer en la población dominante sino en la periferia. Y es en estas circunstancias en donde suelen irrumpir las nuevas especies.

¿Es posible que los grandes cambios que se produzcan en la multitudinaria periferia de la web lleguen a determinar una transformación drástica que afecte a los espacios dominantes?

Lo que está claro por el momento es que los hipersegmentados contenidos de millones de usuarios en todo el mundo, dependen de un etiquetado de calidad para sobrevivir. Y es una buena razón para creer que será entonces en la periferia de la web en donde podrían tener lugar las más innovadoras adaptaciones. Porque en este pajar, hay demasiadas agujas.



Fuentes

Family resemblance
Long Tail
Folksonomías
Ontologías
Survaival of the fittest tag



No hay comentarios.: