Me voy a permitir una e-lucubración. El otro día se anunciaba en el blog de Enrique Dans el fin del directorio de yahoo. Allí puse un comentario que al parecer nadie entendió (¿!ni yo!?) sobre cual podría ser el futuro Google o el buscador del futuro. Todos admiten que le herramienta era muy útil pero se quedó detrás y ganó google, se comentaba también que algunas cosas eran mucho mas sencillas de buscar en yahoo porque tenía un orden lógico.
La principal debilidad de google es que al ser una búsqueda de fuerza bruta no tiene una lógica de asociación
semántica, por lo tanto no nos puede dar resultados asociados a los que estamos buscando. Cualquiera que ha buscado en google sabe que tiene que buscar las palabras más utilizadas para obtener resultados relevantas y nunca google nos sugerirá algo que tenga que ver con el tema ( no palabras mal escritas eso se hace con un cluster!). Una segunda debilidad esta dada por los bombazos a google que hacen que páginas con información no relevante salgan primeras en la búsqueda. La incognita del buscador del futuro está en como mejorar los resultados de las búsquedas y obtener términos relacionados de forma consistente.
Se puede pensar que relacionando las búsquedas con la wikipedia se podrían mejorar los resultados de las búsquedas, sin embargo lo que esta sucediendo es lo contrario, ya que la wikipedia es uno de los primeros resultados para términos comunes (no se si google cambiaría el algoritmo para que esto se dé) la utilizamos para búscar información relacionada dejando de lado google. Pero la wikipedia es completamente horizontal, por lo que no nos podrá mostrar asociaciones jerárquicas entre términos, aunque si nos podrá dar relaciones entre términos y desambiguaciones.
Otra posible solución al problema planteado es imaginar un google-web-2.0 en el que los usuarios etiqueten las páginas que encuentren o que los webmasters etiqueten (que ya lo hacen) sus páginas. Terminaríamos con una especie de mega-del.icio.us que enfrentaria el problema de que cada uno etiqueta las cosas desde un punto de vista diferente y que ese punto de vista cambia por cualquier variable externa, además de que nuevamente las etiquetas no tienen relaciones semánticas. Muy poca gente utiliza del.icio.us para realizar búsquedas, es un catalogador personal.
La tercera es la opción de la web semántica, establecer un análisis ontológico global. Es decir crear un orden-absoluto de las relaciones semánticas entre términos y que todos se atengan a ella, que todas las páginas se indexen en base a un gran catálogo preestablecido. Esta propuesta es de por si radical y coarta algunas libertades, además que a muchos no les va a interesar ser encasillados en ciertos términos porque podrían ser fácilmente filtrados.
Las opciones intermedias son válidas, la que más me gusta a mi y por la que apostaría es una serie de ontologías o analisis de dominios a las cuales puedes asociar tu pagina web de una forma sencilla como un plugin de del.icio.us. Estos dominios analizados tendrían que ser dinámicos y colaborativos, suena un poco loco pero sería una mezcla entre muchas web existentes (google, wikipedia, del.icio.us, technorati) con ontologías.
La idea gira en que mucha gente es experta en un dominio dado (así lo ha validado la wikipedia) y puede ayudar a construir una ontología válida sobre la cual catalogar la información. Me imagino construyendo un texto, o guardando una foto y que un plugin al que le dijera que estoy sobre el dominio de la ingenieria del software me mostrara todos los términos asociados, en base a esos términos yo guardo el texto/foto/presentación etc. A otra persona le será mucho más fácil encontrar la información porque podría navegar el árbol como en el defenestrado directorio de yahoo y encontrar la información que yo he catalogado. El resultado es una búsqueda que tenga “sentido” y no una búsqueda por palabra clave.
¿ Para que intentar un nuevo google si el que tenemos me da lo que busco ?, esto es verdad pero probablemente no por mucho tiempo. La degeneración de Google es evidente para muchos términos que solo devuelven publicidad y que nos hacen recurrir a otros websites como la misma wikipedia o revistas especializadas. Además todos hemos sufrido el no tener las palabras claves para una búsqueda y mirar muchos links hasta encontrar la relación entre términos para finalmente llegar a las dos o tres palabras clave que nos llevan a la información requerida.
Una última opción es que no exista la necesidad de tanta complicación y que en tanto caos se establecerá un orden natural..