domingo, 30 de março de 2014

Tecnologias da Web Semântica (MOOC)

Tecnologias da Web Semântica (MOOC)

Este curso apresenta os fundamentais das tecnologias da web semântica, isto é, como representar o conhecimento e como acessar aos dados da web semântica e aproveitar deles. É ensinado em inglês pelo Dr. Harald Sack, pesquisador no Instituto Hasso Plattner de Potsdam, e é acessível na plataforma openHPI.

Desenvolvimento do curso


Este curso é dividido em seis semanas, compreendendo cerca de quatro horas de conteúdo por semana (incluindo os trabalhos de casa). Um excursus também é oferecido ao meio do curso para apresentar formas para enriquecer sites web com metadados semânticos (através os microformatos, o RDFa e schema.org). No final, este curso requer um mínimo de 25 horas para ser visto, sem adicionar nenhum conteúdo adicional, nem passar perguntas de escolha múltipla ou prova. Cada semana (ou lição) contém uma média de sete vídeos de 15 até 20 minutos, seguidos por um teste. Cada curso é concluído por uma trabalho de uma hora em tempo limitado com data de entrega. Porém, este curso estava num modo arquivo quando o tirei. Neste modo, os assuntos dos TPC não são acessíveis, só o são as soluções deles. Por fim, um exame final de três horas conclui o curso inteiro, mas é também inacessível no modo arquivo.

O Dr. Harald Sack, que apresenta este curso, é pesquisador sénior e chefe do grupo de pesquisa sobre as tecnologias semânticas do Instituto Hasso Plattner de Potsdam.

Conteúdo


Esto curso tem por objetivo explicar o conjunto das tecnologias da web semântica. Começando com a história da web, mostra os seus limites e como é necessária uma abordagem semântica para os ultrapassar. Mas o que significa exatamente a semântica? O triângulo semiótico explica-o concisamente: um símbolo simboliza um conceito, que se refere a um objeto, e o símbolo representa este objeto. Os formalismos RDF e Schema RDF são depois introduzidos para representar estes triples de dados, da representação deles por grafos até ao XML e a sintaxe Turtle. Depois de nos mostrar como construir pequenas bases de conhecimento por meio das quais podemos inferir dados implícitos a partir dos explícitos, o curso ensina-nos a ir mais longe consultando estes bases de dados em SPARQL, que é um pouco mais do que uma simples linguagem de consulta. A problemática do armazenamento de dados RDF(S) é ilustrada por várias implementações de triplestores em bases de dados relacionais. Contudo, o RDF(S) ainda carece de expressividade semântica. Seguimos pela apresentação da história das ontologias em filosofia e, em seguida, na representação do conhecimento, e depois passamos à lógica proposicional e à lógica de primeira ordem, e àlguns algoritmos de resolução (forma normal conjuntiva e método dos Tableaux). Então, passamos à lógica descritiva, à linguagem OWL das ontologias web (e mais especificamente à variante OWL2 dele, que é muito expressiva e ainda decidível), e às regras (incluindo Datalog e algumas palavras sobre SWRL e RIF). Depois de ter feito hacking de ontologias, agora temos de avançar para a engenharia de ontologias, isto é, utilizar metodologias para conceituar, cartografiar e mesclar ontologias, uma vez que elas precisam, como outros projetos, ser gerenciadas, planejadas, desenvolvidas, validadas pela Garantia de Qualidade, mantidas… O processo 101 está explicado, como o Processo Unificado e os padrões de projeto que são brevemente evocados. Também nos apresenta o Open Linked Data e maneiras de interagir com ele, o que é ilustrado pelo problema do reconhecimento de entidades mencionadas, tudo levando a diferentes abordagens da busca semântica, e particularmente à busca exploratória.

Pré-requisitos


Este curso tem alguns pré-requisitos, particularmente um conhecimento básico das tecnologias web (URL, http, HTML, XML), dos bases de dados relacionais e do SQL, e de lógica (lógica proposicional e de primeira ordem).


Proveitos e outras reflexões


O excursus sobre a implementação dos dados semânticos no código HTML é bastante interessante, especialmente quando já conhecemos o RDF. Porém (e esta é apenas a minha opinião), não o acho muito útil de um ponto de vista SEO. Porque mesmo se Google pode exibir fragmentos enriquecidos nos resultados de busca dele (foto do autor, votos, navegação estrutural…) a partir dos dados legíveis por máquina com os quais enriquecemos o nosso conteúdo, ele pode também ignorá-los ou utilizá-los para os seus próprios fins, acumulando dados semânticos grátis para os mostrar à vontade na sua página de resultados de pesquisa onde os usuários puderem encontrar todos os dados que eles precisam sem visitar os sites de onde provêm. Neste sentido, fornecer metadados semânticos já é trabalhar para a máquina, esses fragmentos podendo ser facilmente desconectados do conteúdo original e do contexto deles. Doutro lado, esses dados compreensíveis pela máquina também poderiam ser uma das razões para as quais uma página específica é mostrada nos primeiros resultados dos SERPs.

Outro ponto interessante é a busca semântica exploratória já implementada por Google na primeira página de resultados, que ainda ilustra o primeiro ponto. Uma vez que uma entidade mencionada é reconhecida no campo de pesquisa, um resultado do grafo de conhecimento é apresentado no lado direito da página, incluindo dados da Wikipédia (e o homólogo semântico dela, a DBpedia) e doutras fontes, como factos, livros, filmes, etc. Os usuários são orientados na pesquisa exploratória, mas os sites que fornecem essas informações não são, portanto, mais visitados, o que pode matar o modelo de negócio deles, e Google pode ser visto como o último predador da cadeia do conhecimento (o que não quer dizer que um motor de busca exploratória de tamanho razoável não iria beneficiar os usuários suportando consultas que um motor de busca baseado em palavras-chave não seria capaz de tratar).

Também é uma boa ilustração do facto que o ecossistema da web atual desenvolveu um conjunto de regras que perverteram a ideologia do início dele. Os dados não são livres, e a maioria são criados com um custo, ou para tirar proveito deles, que seja reconhecimento, tráfego ou receitas de publicidade. O movimento Open Data é emblemático de uma luta para libertar os dados recolhidos através de um financiamento público, e a Wikipédia pode ser vista como um ressurgimento do Século das Luzes através de um processo colaborativo, mas o resto da web é principalmente liderado por forças económicas. Temos na ponta dos dedos uma enorme quantidade de dados. Porém, os mesmos motores de busca que nos ajudam a navegar neste oceano também ditam como os consumimos. A web semântica é o futuro da web, ou apenas uma maneira para os grandes jogadores de organizar este dilúvio de dados para os próprios fins deles?

Leituras sugeridas


A Developer’s Guide to the Semantic Web

A Developer’s Guide to the Semantic Web, por Liyang Yu, Springer (2011)
Programming the Semantic Web

Programming the Semantic Web, por Toby Segaran, Colin Evans & Jamie Taylor, O’Reilly Media (2009)


Semantic Web Technologies (MOOC) (em inglês)
Technologies du web sémantique (MOOC) (em francês)
Tecnologías de la web semántica (MOOC) (em espanhol)

1 comentário:

  1. Uma boa notícia para as pessoas que se interessam pela web semântica: este curso oferecer-se-á de novo do 26 de maio ao 15 de julho.
    Para mais informações, podem visitar a página seguinte do openHPI https://openhpi.de/courses/semanticweb2014

    ResponderEliminar