web do futuro
DESCRIPTION
A busca do sentido nos textos publicados na Internet está levando ao avançfo gradativo do XML como linguagem padrãoTRANSCRIPT
WEB SEMÂNTICA
A Internet do Futuro
Por Armando Levy
Qual o sentido da WEB?• Pesquise no Google:
• “Minas”
• Você recebe respostas tão variadas quanto a bandeira de Minas Gerais, o queijo minas e minas de ouro e diamantes
• Mas você quer saber sobre MINAS EXPLOSIVAS
Por que?• Sistema não distingue o Estado,
o tipo de queijo e a mineração da arma
• Técnica mais usada é combinar palavras, de modo a aprimorar o resultado da pesquisa• Busca Avançada
• Mas resultado é sempre desolador
• São dezenas (às vezes centenas) de páginas que não interessam, tornando difícil separar o joio do trigo
• Por que isso ocorre?
HTML é limitado• Crescimento exponencial da
WEB tornou difícil indexar as informações
• A linguagem HTML, que popularizou a WEB e é utilizada pela maioria dos sites, não possui recursos que permitam atribuir significado à informação
• As tags HTML são muito limitadas nesse sentido. Elas apenas descrevem como a página deve ser exibida e não oferecem nenhuma descrição dos dados
Minas, Estado
Minas, Ouro
Minas, Queijo
Minas, Explosivas
Como mudar?• Para melhorar a indexação são
necessárias categorias mais apuradas que permitam triar com eficiência no oceano de dados disponíveis
• Categorias já existem• Para o usuário que visita as páginas da
Estado de Minas, do Queijo Minas, das Minas de Ouro a diferença é evidente
• O problema é que essas diferenças só são entendidas por nós: humanos
• Aspiração da Inteligência Artificial é fazer com que a máquina reproduza os mecanismos da inteligência humana
• Mas ainda estamos muito longe disso
Minas, Estado
Minas, Ouro
Minas, Queijo
Minas, Explosivas
WEB Semântica• A WEB Semântica é uma
tentativa inversa de solução
• Ao invés de pensar na informação para os humanos, a idéia é pensar na máquina
• "Machine-understandable Information", esta é a definição da WEB Semântica, segundo o "pai da WEB", Tim Berners-Lee, um dos comandantes desse projeto
W3C• A criação da WEB Semântica
é capitaneada pelo consórcio W3C
• O W3C é um sucessor do projeto Metadados, cujos princípios são os mesmos: incluir "informação sobre a informação" na WEB
• O projeto Metadados tentava fazer isso via linguagem HTML, o que se revelou impossível porque o HTML não permite criar categorias semânticas.
Linguagem XML• Componente central da WEB
Semântica é a linguagem XML (Extended Markup Language), que permite descrever semanticamente os dados a partir de categorias que o próprio usuário pode definir
• Elemento XML pode ter dados declarados como preço de venda, título de livro, quantidade de chuva ou qualquer outro
• Uma vez que o dado é encontrado, ele pode ser distribuído pela rede e apresentado em um browser de várias formas possíveis
Por que XML?• É uma linguagem extremamente flexível• Mas criação de muitas categorias diferentes também
não é interessante• É preciso definir categoria em conjunto• Um exemplo é o da Unicamp e CNPq, que
estabeleceram um protocolo comum (criado por uma equipe da Universidade Federal de Santa Catarina) para poder trocar dados relativos aos currículos de seus pesquisadores
Como criar XML?• Para criar aplicações XML são
necessários quatro passos:• DTD (Document Type Definition)• Definir conjunto de tags e a
gramática da linguagem de marcação
• Não sobrepor tags e não omitir tags de finalização
• Usar os padrões DOM (Document Object Model) e SAX (Simple API for XML) para interpretá-las
• Transformar o arquivo para folhas de estilo (CSS) porque nem todo navegador lê XML
Categorias• Processo ainda é complexo• Há a necessidade de acordo
sobre que categorias a utilizar, como os dados devem ser relacionados, como os usuários irão interagir com eles
• Sem isso não há como montar "banco de dados"
• Este é, aliás, um dos maiores desafios do futuro da WEB
• No comércio eletrônico as empresas devem chegar a um acordo, pois têm muito interesse nessa tecnologia
Outros componentes• Outros componentes da WEB
Semântica são:• Universal Resource Identifier
• Como a URL especifica uma identidade • Resource Description Framework
• Uma linguagem e uma gramática para definir informação na WEB
• Ontologias• Conjuntos de asserções que definem as
relações entre conceitos e estabelecem regras lógicas de raciocínio
• Agentes• Softwares que funcionam sem
necessidade de controle direto ou supervisão
AgentesProgramas robôs
que executam tarefas específicas
na WEB
Premissa• A WEB Semântica reside na
esperança de que as pessoas comecem a publicar seus dados em RDF (Resource Description Framework)
• RDF é simplesmente um modelo de dados que permite às pessoas criarem dados legíveis pela máquina
• A WEB Semântica será construída baseada nestes dados
• Quando se publica algo em RDF não se está criando necessariamente uma parte da WEB Semântica, apenas se está colocando os dados à disposição dos processadores semânticos da WEB
Metas• As metas da WEB Semântica são
mais ambiciosas do que simplesmente permitir indexar melhor a informação da WEB
• Interessam as aplicações que se tornam possíveis com a utilização de categorias semânticas para descrever os dados
• Você pode criar um agente (programa robô), especificando que tipo de emprego gostaria de ter, qual a remuneração de seu interesse, local de trabalho ideal, benefícios de seu interesse, entre outras informações, fazendo com que ele circule pela Internet
Sites e blogs• Sites não comerciais
também se beneficiam da utilização do XML e do desenvolvimento da WEB Semântica
• Seus conteúdos indexados podem ser mais facilmente localizados pelos sites de busca como Google
• Este fenômeno explica o boom dos Blogs Corporativos
A WEB atual
FONTE: Eric Miller – W3C
A WEB Semântica
FONTE: Eric Miller – W3C
Onde a roda pega?• É necessária uma nova política de
propriedade intelectual• Os avanços da tecnologia de
informação e redes digitais possibilitam que cada um de nós se torne em um editor
• Roubo de propriedade intelectual é difícil de vigiar em uma rede distribuída
• Os proprietários de diretos autorais (textos, músicas, filmes) perseguem e combatem ferozmente as tecnologias que possibilitam acesso dinâmico a conteúdos protegidos por leis autorais
• O avanço da WEB Semântica vai exigir repensar os direitos autorais
Como ser feliz?• O segredo da WEB Semântica
está no conteúdo• Definição de categorias é
fundamental• Publicar documentos sem
categorias ou tags será o mesmo que jogar uma pedra no rio
• Surge uma nova profissão?• O categorizador de web?
O produtor de conteúdo na web escreve, filma,
grava, edita e define categorias
Tem sentido falar ainda em “jornalista”?
Obrigado!
• Armando Levy• Formação em Comunicação Social pela FAAP• Pós-Graduação em Gestão de Comunicação pela USP• Especialização em Gestão de Informática pela FGV• MBA em E-Business pela FGV• Mestre em Teoria e Pesquisa em Comunicação pela ECA-USP• Gerente de Comunicação e Internet da Credicard, Vésper e
Banco1.Net• Diretor da e-Press Comunicações• Consultor do Núcleo de Formação Profissional da Câmara Brasil
Alemanha• [email protected]• (11) 4082 4600