Posts Tagged ‘herramientas_semanticas’

El inicio “real” de la web 3.0: Microsoft adquiere Powerset y Mobicomp

dolors reig | June 28th, 2008 | 3 Comments »

googlebot

Se aventuraba en el siguiente gráfico la importancia económica de una supuesta unión google-amazon, que convertiría al nuevo gigante en el mercado mundial más importante. La clave de todo ello: La web semántica y las posibilidades de optimización de la cadena de márketing y venta que ofrecen sus tecnologías.

Nos decían en el último gran evento sobre la web semántica, que revisamos en Tetherless world: La ciencia de la web algunas cosas que en aquel momento (hace pocos días) eran teoría, especulaciones, en términos capitalistas, si ninguna empresa de entre las punteras en la web2.0 se decidía a invertir en ellas.

La necesidad de que esta nueva forma de entender la web se convirtiera en “mainstream”, en algo popular y de uso común requería, además de la simplificación de su mensaje para el público general y aunque no se decía de forma explícita, que se completase el proceso de innovación, desarrollo, inversión y rentabilización:

Después de su nacimiento e inicial desarrollo en el ámbito universitario, diversos inversores han trabajado para que las startups y empresas en beta que han surgido durante los últimos tiempos al respecto: Triplify, Twine, diversos buscadores, etc…alcanzarán un grado de maduración suficiente como para ser atractivas o convertirse en puntales de valor añadido y diferencial para grandes empresas:

Llegó ese momento para las tecnologías de búsqueda y Microsoft, que lucha desesperadamente por reconvertirse a una empresa puntera (o 2.0, como también se ha dicho), está a punto de comprar Powerset, tecnología de búsqueda que ya incorpora Wikipedia.

También Tim Berners Lee mencionaba recientemente que la movilidad sería otra de las características de la nueva web3.0. El propio término Tetherless world que titulaba el último evento del que os hablaba, se refiere a la aplicación de lo semántico a lo móvi. Así, también Microsoft, ha adquirido recientemente MobiComp una compañía puntera en el mercado móvil. El objetivo, el que manifestaba Todd Peters, Vice presidente corporativo de Microsoft: Extender la capacidad de  Windows Mobile y Windows Live para lograr formas más innovadoras de estar siempre conectados.

Se trata de la lucha de titanes, de dos pasos adelante de Microsoft, que no ha terminado de implantarse como alternativa a los servicios de Google en lo 2.0, hacia la web ubicua y semántica, la web3.0.

Mientras tanto, Google, que en nuestra foto inicial y hace unos años parecía ser el candidato ideal para monopolizar esta nueva web, sigue sembrando afirmaciones contradictorias sobre la no necesidad de semantizar la web, con distintos argumentos y actuaciones:

-Sus tags o etiquetas, palabras clave, etc.. hicieron que los responsables de contenidos de las webs hicieran sus webs más humanas, que se adelantaran a las distintas formas en las que un usuario puede plantear una búsqueda para llegar y navegar en su sitio web.

-A pesar de ello, su mecanismo rankista es la perfecta antítesis del ideal semántico, restando importancia a los metadatos del documento, a sus contenidos, en favor de datos que provienen de terceras partes, como los enlaces entrantes.

-Algunos de sus responsables han manifestado que la web semántica, en su actual aproximación RDF/metadatos es simplemente utópica.

-De momento, sigue en su línea, intentando cosas como ser el repositorio de datos más grande que hay sobre nuestra vida online. El Behavioral Targeting,  una técnica de segmentación en base al comportamiento o navegación de los usuarios” sería muestra de su apuesta por el inmovilismo, un nuevo intento de rentabilización de la estructura de la web actual en lugar de una apuesta por lo semántico.

Y creo que lo hace, simplemente, por abaratar o evitar los costes de transición. Estoy segura de que cambiará su postura tras la noticia con la que iniciábamos este post, de que relativamente pronto conoceremos su contraofensiva de adquisición de alguna de las startups de las que hablábamos (¿Twine, Hakia?) y de que serán varios y semánticos los bots que, junto al de google, controlarán la tierra, quizás no en 2009, pero sí no mucho más allá.

Empezábamos diciendo que podría verse la adquisión de Powerset como el principio de la web3.0, con inversiones suficientes para sobrevivir.

Pero un escenario alternativo sería aquel en el que Google se posicione fuertemente al otro lado, siga negando la utilidad de este tipo de herramientas en su actual estado de desarrollo y de lugar a una lucha, durante los próximos años entre sus tecnologías poco inteligentes pero con inmensas bases de datos y las nuevas opciones, tecnológicamente superiores pero con muy pocos años de desarrollo como para devolvernos y devolver a las empresas interesadas en vender sus productos, infomaciones útiles.

Quizás lo que vivamos cuando se confirme la “semantificación” de microsoft” sea precisamente el declive de las expectativas sobre una web con significado….

Se verá.



Twine, futuros desarrollos (cuando la personalización total en publicidad es contenido)

dolors reig | June 2nd, 2008 | 5 Comments »

Por si no la conocéis, Twine es una de las primeras herramientas de la web3.0. Fue anunciada el pasado mes de octubre y sigue actualmente en fase beta. Uno de sus máximos exponentes, Nova Spivack, asistió recientemente a la Semantic Technologý Conference2008, de la que ya os he hablado, lugar en el que concretó algunos detalles curiosamente anticipados en el artículo publicado anteriormente: Twine, tejido social de ovillos semánticos.

Su lectura os proporcionará ideas sobre la web semántica y su futuro, incluso, como estrategia de comercialización de contenidos bajo la lógica que empieza a aparece en el ámbito del márketing en internet: la publicidad, orientada a intereses y totalmente personalizada puede llegar a ser considerada como “contenido”.

Pasemos a ver un resumen de la presentación de Nova:

-El foco de Twine está en los intereses: Si Facebook sirve para las relaciones y LinkedIn presta soporte al desarrollo de nuestra arrera profesional, Twine sería una red de intereses, más que una red social. Las palabras clave son organizar, compartir y descubrir.

-Los ovillos semánticos, los distintos Twines que podemos crear o a los que podemos aportar distintos contenidos, son una metáfora o expresión de lo que se entiende por ontología (formulación de un exhaustivo y riguroso esquema conceptual dentro de un dominio dado, con la finalidad de facilitar la comunicación y la compartición de la información entre diferentes sistemas)

Así, además de integrar las existentes, la propia evolución de la herramienta incluye preparar otras ontologías e integrarlas en twine. Después, en una fase posterior de desarrollo, permitirá a la gente crear ontologías propias.

-Twine procesa de forma natural texto, proveyendo autotagging con capacidades semánticas. Tiene una ontología subyacente con un millon de instancias de miles de conceptos para generar esas etiquetas (por ahora solo se exponen algunas de ellas). Radar está trabajando en el análisis estadístico de clusters de contenido relacionado, la mayoría de los cuales serán lanzados en otoño (qué personas, items e intereses están interrelacionados). Twine usa inteligencia artificilal para crear esos clusters.

-La búsqueda dentro de Twine posee capacidades semánticas. Podemos filtrar bookmarks según las compañías con las que estén relacionados, o según el lugar del que provienen.

-Twine pretende popularizar entre el público general la web semántica. Para ello, recoge durante este período de prueba algunas críticas respecto a la necesidad de simplificar la interface, haciéndola usable incluso para gente que no sabe nada sobre datos estructurados o autotagging (actualmente podemos tardar unos días en “captar” su funcionamiento)

-Cuando los grupos empiecen a usar Twine, la inteligencia colectiva dará un salto adelante. Se trata de bases de conocimiento común similares a Wikia o Freebase. Pero a diferencia de otras bases de datos, en Twine, más de la mitad de los datos y actividades son privados (60%). La privacidad y el control de permisos es importante en los datos de Twine.

-Twine utiliza 8 conceptos clave: sujeto, objeto, predicado, fecha, confianza, valor, procedencia, y otros datos estadísticos sobre el item en sí mismo. Pueden hacerse inferencias de predicado a través de cuentas, control de acceso, etc…

-Se habló, por último, del estado beta en que se encuentra Twine. Ha habido 20000 usuarios de prueba, 9000 twines creados, 150000 items añadidos, 60% de twines privados, etc…y cada pocas semanas se añaden nuevas funcionalidades (importación de marcadores, interoperabilidad con otras aplicaciones y la habilidad de usar ontologías)

-El nivel ontológico supone que seremos capaces de extraer los datos propios fuera de Twine en formato RDF, FOAF, SIOC o Dublin Core, los lenguajes principales de la web semántica.

-Se trabaja actualmente en la posibilidad de importar los marcadores en del.icio.us, Digg, marcadores de escritorio, contactos de Outlook y muchos más. Será en otoño cuando todos estos desarrollos salgan a la luz. Primero será la interoperabilidad con Freebase y otras aplicaciones semánticas. También, tema importante para la rentabilización de la herramienta, con Amazon.

DBpedia está ya integrada de forma parcial en Twine. Como las URI de Wikipedia, que están siendo ya utilizadas en la identificación de tags y cuya integración irá también en aumento.

-Sobre la rentabilización, clave para que todos estos desarrrollos sean posibles, el perfil semántico que Twine establece sobre usuarios y grupos hace que pueda acercarse de forma bastante precisa a sus intereses. Twine empezará a mostrar contenido esponsorizado basado en estos intereses. Cosas que pueden ser muy relevantes en cuanto a intereses pueden ser consideradas casi como contenidos, incluso si son esponsorizados. Pronto veremos pruebas de este tipo de publicidad en Twine.



Calais, nuevas herramientas semánticas (de etiquetado) para nuestros blogs

dolors reig | May 20th, 2008 | 5 Comments »

Iba a presentaros los plugins “no oficiales” de Calais, Auto-tagger y Archive-tagger para wordpress (autoalojado) cuando leo que Reuters ha presentado la segunda versión de su API, o toolkit de herramientas semánticas, Calais 2.0, con herramientas similares a las primeras pero que prometen funcionar de forma efectiva con contenidos más genéricos.

En el caso de los dos primeros, que sigo recomendando para quienes alojéis un blog en wordpress (que corra en un servidor con PHP5), se trata de extensiones que auto etiquetan los contenidos del blog. Parece que funcionan mejor con contenidos sobre tecnología o negocios.
Archive tagger, en mi caso, aplicado a semanticaweb.info ha generado muy buenos resultados de la ejecución del etiquetado automático, en menos de 5 minutos, de unos 200 posts.

Probadlo…no os defraudará.

Hoy mismo, la misma empresa, ha lanzado Calais 2.0 como marca que incluye una docena de nuevas “entidades” o grupos temáticos semánticos. Reuters, la empresa responsable quiere ampliar sus servicios para bloggers y similares que traten sobre temáticas como la música, el entretenimiento general o los deportes, la medicina, productos farmacéuticos, etc…

Podéis encontrar en el sitio web de Calais una galería de aplicaciones desarrolladas que podemos usar, como plugins para Firefox, analizadores de contenidos en los feeds, visores de documentos, etc., todo ello basado en el API de Calais, capaz, no sólo de trabajar con los típicos documentos RDF de la web semántica sino también con folksonomías, tags o metadatos.

  • Calais Marmoset es una herramienta que permite a los desarrolladores crear metadatos de forma automática. Está especialmente adaptada a los resultados que lee la plataforma open search de Yahoo y Search Monkey(similar a triplify, de la que también hablamos)
  • Tagaroo, un plugin para Wordpress que permite etiquetar de forma automática personas, lugares y cosas en cada post, así como realizar sugerencias sobre imágenes semánticamente relevantes en Flickr.
  • Plugin de Calais para Drupal, un gestor de contenidos bastante popilar desarrollado por Phase2Technology.
  • Gnosis, un complemento para firefox, similar a Zemanta, herramienta de la que hablamos extensamente hace un par de meses.

No he tenido tiempo de probarlo todo…pero en el caso de Taggaroo, plugin para wordpress, la instalación es fácil y sólo puede despistaros al requerir, como Akismet o WpStats, un código API que obtendremos registrándonos en Calais para su funcionamiento (compatible con versiones 2.3 o superiores)

Está apoyando la redacción de este artículo y me ha gustado especialmente en cuanto al apoyo de imagen. Os dejo algunos de los resultados o sugerencias seleccionadas de las 429 imágenes de Flickr asociadas a etiquetas que ha devuelto, escalables a distintos tamaños:

(Escribiendo en español lo ideal es entrar los tags manualmente para después buscar entre las fotografías de Flickr que el sistema, en base a estos, propone)

En cuanto la sugerencia a tags o etiquetas, quizás por la temática de este blog y su asociación con los tópicos en los que se especializaba Autotagger, lo prefiero. Los resultados que arrojó para semanticaweb fueron espectaculares.

Repetir por último que, como en el caso de Zemanta, los resultados en español aún son pobres. Si escribís sobre fuentes en inglés os recomiendo trabajar en el editor de posts con estos en versión original antes de la traducción (uno de mis “trucos” o dinámicas de trabajo).

Hablaremos en próximos posts, por su compatibilidad con Blogger y cualquier otro tipo de sistema que utilicéis, de Gnosis y similares, complementos para el navegador que son útiles también a la hora de hacer más “semánticos” nuestros posts.

Video: Oh my god, Dios está en todas partes.

dolors reig | May 16th, 2008 | 1 Comment »

Oh My God – A Film by Peter Rodger
Dirigido por Peter Rodger, la música es de Alexander van Bubenheim. Rodado en 22 países, Oh My God explora las distintas ideas y perspectivas acerca de Dios alrededor del mundo. El video es el trailer de la película, sobre la cual podéis consultar más detalles en www.omgmovie.com

Zemanta Pixie

La moda de lo semántico. ¿Qué significa semántico? ¿Qué forma parte de la web semántica?

dolors reig | May 15th, 2008 | 4 Comments »

Nova Spivack, Radar NetworksImage by dfarber via Flickr Leemos titulares, en ocasiones, ambiciosos con respecto a la llegada de determinadas herramientas de la web semántica. Un comentario a la última entrada sobre Twine expresaba ayer ciertas dudas sobre mi definición de la herramienta como la “Primera red social que utiliza tecnologías semánticas”.

Gracias al reciente Planeta Semántico de artículos en español sobre el tema descubro hoy la aclaración de Nova Spivack, CEO de Radar Networks, la compañía responsable de Twine, al respecto de la diferencia entre “semántico” y “web semántica”, en un breve post en el que clarifica acertadamente el significado del término. Traduzco su aclaraciones:

“Está de moda hoy etiquetar cada nueva aplicación como “semántica” pero, qué significa realmente eso? ¿Son todas las herramientas semánticas parte de la web semántica? ¿Cual es el criterio para que algo sea considerado semántico? ¿Significa que algo sea semántico que forma parte de la web semántica?
Se trata de algo realmente simple. Cualquier aplicación que puede entender el lenguaje hasta cierto punto puede ser etiquetada como semántica. Incluso Google es, en cierta medida, una aplicación semántica bajo esos criterios. Es una cuestión de grado: Powerset (aclaro que es la tecnología de buscador que acaba de incorporar wikipedia) es más semántico que Google, por ejemplo, porque entiende en mayor medida el lenguaje natural y no sólo en el sentido de palabras clave.

Para que cualquier aplicación pueda ser considerada parte de la “Web semántica” debe soportar una serie de estándares definidos por el W3C, incluyendo por lo menos el lenguaje de marcado RDF, y de forma potencial, también OWL y SPARQL. Estas son tecnologías que de forma colectiva componen la web semántica. Soportarlas o hacerse compatibles con ellas significa, por lo menos, hacer algunos datos visibles a aplicaciones externas.

No estoy seguro de si Powerset lo está haciendo ya. Tampoco de Freebase. Pero deberían (y creo que lo harán). Twine sí está usando RDF y OWL de forma interna, a pesar de que está en fase beta y sólo algunos participantes pueden acceder a los datos. Otras compañías, como el propio Digg están haciendo sus datos RDF públicos.

Cualquier aplicación que publique datos RDF puede considerase semántica además de parte de la web semántica.