Área Restrita  |

Recuperação de Informação

Recuperação de Informação (RI)

Recuperação de Informação (RI) é a atividade de recuperar objetos informacionais armazenados em um meio acessível por computador. Um objeto informacional é geralmente constituído de texto, tais como documentos diversos, páginas Web e livros, embora possa conter outros tipos de conteúdo, tais como imagens, áudios, gráficos e figuras. A representação e organização desses objetos devem permitir às pessoas o acesso à informação relevante a partir da expressão de uma necessidade de informação, por exemplo, por meio de uma consulta.

O estudo de novas técnicas de recuperação de informação ganhou importância com a rápida expansão da Web, que trouxe muitos desafios para as técnicas disponíveis até então. De fato, encontrar informação útil na Web é sabidamente uma tarefa tediosa e difícil. A quantidade virtualmente ilimitada de informação, expressa das mais variadas formas e com diferentes níveis de qualidade, e o enorme e crescente número de pessoas interessadas em seu acesso e aos demais serviços disponíveis na Web, demandam novos métodos e tecnologias capazes de eficientemente gerenciar e recuperar essa enorme gama de informação. Nesse sentido, técnicas e soluções de RI são fundamentais para atacar os problemas do Desafio 2.

Vários avanços de pesquisa nessa linha serão obtidos por meio da incorporação de resultados do Desafio 1, que proverão um melhor entendimento dos interesses e atividades das pessoas na Web. A incorporação desse conhecimento permitirá o desenvolvimento de técnicas mais efetivas e eficazes de RI para a representação e modelagem de objetos informacionais da Web. Por exemplo, avanços importantes são esperados no desenvolvimento de coletores temáticos e processadores de consulta com capacidade de aprender os interesses (sociais) dos usuários [4, 12, 113] e de novos algoritmos e estruturas de dados capazes de melhor tratar as dimensões da Web [25-27] (objetivos específicos 2.1 e 2.2). Esses e outros resultados serão incorporados em uma biblioteca de componentes de software para tratamento de informação da Web que serão utilizados tanto para a construção do Portal Brasileiro de Ciência e Tecnologia quanto para o desenvolvimento de novos serviços, por exemplo, veiculação de propaganda baseada em conteúdo e em interesses dos usuários [76], disseminação seletiva de informação [91] e recomendação [82] (objetivo específico 2.3). Note também que técnicas de RI podem ser importantes para atacar aspectos do Desafio 1, já que muitas das evidências produzidas pelas pessoas em sites de redes sociais e relacionamentos ocorrem na forma de texto (por exemplo, tags, descrições, comentários).

Por outro lado, o reconhecimento do contexto geográfico presente no conteúdo de páginas da Web [23, 50] e nos termos usados nas consultas [104] podem ser usados como evidências para melhorar a eficácia de consultas em que o usuário busca conteúdo ou serviços de interesse local [69, 84] (objetivos específicos 2.1, 2.3 e 2.8). Por fim, dentro do objetivo maior de melhorar a experiência das pessoas com a Web, pretendemos investigar métodos de recuperação de informação multilíngue, que permitem que objetos informacionais sejam retornados em um idioma diferente daquele em que a consulta foi formulada (objetivo específico 2.9) [96].

É importante ainda mencionar que resultados de pesquisa adicionais nos Desafios 1 e 3 poderão ter impacto direto nos objetivos relacionados a esta linha de pesquisa. Por exemplo, a descoberta de padrões de comportamento malicioso e oportunista pode ajudar a detectar material de baixa qualidade ou ruído, melhorando o conteúdo da Web (objetivo específico 2.4), enquanto avanços na infra-estrutura de redes e nos recursos de apresentação facilitarão o acesso e permitirão o uso mais satisfatório da informação que está sendo tratada.

Esta linha de pesquisa contará com a participação principalmente dos pesquisadores Nivio Ziviani (UFMG), Marcos Gonçalves (UFMG), Clodoveu Davis (UFMG), Arnaldo de Albuquerque Araújo (UFMG), Edleno Moura (UFAM), Fabiano Botelho (CEFET-MG), Viviane Orengo (UFRGS), e Leandro Wives (UFRGS).

Gerência de Dados na Web (GDW)

No cenário tradicional da Web, há uma dificuldade inerente para se ter acesso aos dados presentes em suas páginas e que não estejam prontamente disponíveis para essa finalidade. Essa dificuldade se deve principalmente à natureza não-estruturada dos objetos da Web, cujo acesso e recuperação de forma geral só são possíveis, e de forma limitada, por meio de máquinas de busca como Google, Yahoo! e MSN13.

Entretanto, uma grande porção da Web é composta de páginas que podem ser vistas como contêineres de dados já que elas contêm implicitamente dados que podem ser identificados, extraídos e manipulados de forma independente. Exemplos dessas páginas são encontrados em sites da Web tais como livrarias e lojas eletrônicas, agências de viagens, anúncios classificados, entre outras. Para essas páginas, genericamente denominadas de “páginas ricas em dados” [53], além de localizá-las e recuperá-las de forma eficiente, um novo problema é como manipular de forma adequada os dados que elas contêm. Na verdade, isso leva a um paradoxo interessante uma vez que, embora amplamente disponíveis, os dados encontrados na Web não podem ser facilmente consultados e manipulados como em um banco de dados tradicional. Mesmo com o aparecimento de padrões como XML14 e RDF15, que permitem prover alguma forma de estrutura à Web, a grande maioria do seu conteúdo é ainda composto de páginas HTML disponíveis de forma estática ou geradas dinamicamente.

O termo Gerência de Dados da Web (GDW) tem sido usado na literatura recente [21, 59, 79] para se referir ao estudo de problemas relacionados à coleta, extração, modelagem, consulta, armazenamento, transformação e integração de dados disponíveis na Web. Nos últimos anos, esses problemas têm atraído cada vez mais a atenção da comunidade científica, não só devido aos desafios técnicos e científicos envolvidos, mas principalmente à enorme demanda da indústria por soluções efetivas para resolvê-los.

Assim, técnicas de GDW são determinantes para a solução de vários problemas relacionados a temas do Desafio 2. Por exemplo, essas técnicas são fundamentais para se gerar agentes capazes de navegar pela Web Oculta preenchendo automaticamente formulários e coletando as páginas geradas contendo dados de interesse [80], conforme previsto no objetivo específico 2.1. Técnicas de GDW são também fundamentais para se tratar vários problemas relacionados aos objetivos específicos 2.5, 2.6, 2.7, 2.8 e 2.10, por exemplo, para extrair citações bibliográficas [117] ao se estudar redes de co-autoria (objetivo específico 2.6), reconhecer referências a lugares [109] (objetivos específicos 2.1, 2.3 e 2.8), determinar a correta identificação de objetos, [34, 51] na identificação de versões de documentos (objetivo específico 2.7) e desenvolver interfaces de consulta baseadas em palavras-chave [31, 86] que permitam a rápida integração de fontes de dados da Web (objetivo específico 2.7).

Esta linha de pesquisa contará com a participação principalmente dos pesquisadores Alberto Laender (UFMG), Clodoveu Davis (UFMG), Altigran Silva (UFAM), Mirella Moro (UFMG), Marcos Gonçalves (UFMG), Evandrino Barros (CEFET-MG), João Cavalcanti (UFAM), José Palazzo (UFRGS), Carlos Heuser (UFRGS), e Renata Galante (UFRGS).

Copyright © 2010 InWeb - Instituto Nacional de Ciência e Tecnologia para a Web - Todos os direitos reservados.
XHTML 1.1 OKXHTML 1.1 CSS 2.1 OKCSS 2.1 razz