reccloud: um modelo de recomendação para sistemas de armazenamento em nuvem
DESCRIPTION
Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.O desenvolvimento tecnológico vivenciado nos últimos anos, proporcionou o crescimento do universo digital de forma exponencial. Este crescimento gerou um grande volume dados e segundo o relatório publicado pela EMC Corporation1 em 2005, a previsão é que em 2015 chegue a quase 8 zettabytes. A filtragem de conteúdo em meio a essa imensidão de dados torna-se cada vez mais complexa.O armazenamento em nuvem é apontado por Zeng et al. em 2009 [43] como uma das possíveis soluções para lidar com o problema de armazenamento para a imensidão de dados gerados a cada dia. Grande parte dos sistemas de armazenamento em nuvem existentes não oferecem ferramentas que permitam que o usuário faça a filtragem de conteúdo de forma simples como por exemplo, levando em consideração o conteúdo dos arquivos, a relevância dos arquivos na rede ou fatores que proporcionem a melhor utilização dos recursos da nuvem, por exemplo, a disponibilidade. Este cenário torna cada vez mais complexa a tarefa de filtrar conteúdo relevante em meio a imensidão de dados disponíveis na nuvem. Diante deste contexto, sistemas de recomendação (SR) se tornam uma alternativa para auxiliar os usuários na tomada de decisão por qual arquivo escolher e a filtrar informações relevantes de acordo com suas preferências.Nesta pesquisa, propomos um modelo de recomendação baseado em características da nuvem, associadas à técnica de recomendação baseada em conteúdo. Com uma aplicabilidade prática para ambientes de armazenamento de dados na nuvem, que proporcionem a melhor utilização dos recursos da nuvem e atenda as preferências dos usuários.Palavras-chave: Sistema de recomendação, modelo de recomendação, computação em nuvem, sistema de armazenamento em nuvem.TRANSCRIPT
-
RecCloud: UM MODELO DE
RECOMENDAO PARA SISTEMAS
DE ARMAZENAMENTO EM NUVEM
Ricardo Batista Rodrigues Orientador: Vinicius C. Garcia
Co-orientador: Frederico A. Duro
Recife, 27 de Fevereiro de 2014
-
Agenda
Conceitos Bsicos
Motivao
Caracterizao do Problema
Trabalhos Relacionados
RecCloud
Avaliao
Resultados
Concluses
Trabalhos Futuros
2
-
Conceitos Bsicos
Computao em Nuvem
Conjunto de recursos computacionais virtualizados (Hardware e software), oferecidos sob demanda (Vaquero et al. 2009).
(Vaqueiro et al. 2009)
3
-
Conceitos Bsicos
Sistemas de Armazenamento de Dados em Nuvem
Prov recursos e servios de armazenamento baseado em servidores remotos, sob demanda (Zeng et al.
2009).
Caractersticas bsicas:
Recursos infinitos
Baixo custo
Mltiplas copias dos dados armazenados
Alta disponibilidade, escalabilidade e usabilidade.
Desafios
Segurana
Filtragem de contedo
Disponibilidade
4
-
Conceitos Bsicos
Sistemas de Recomendao
So softwares que fornecem sugestes de itens uteis ao
usurio (Ricci et al. 2011).
(Souza, 2012)
5
-
Conceitos Bsicos
Sistemas de Recomendao Baseados em
Contedo
Similaridade entre itens
A quantidade de usurios no sistemas no interfere
Se baseia no histrico do usurio
Precisa de itens bem descritos
Recomenda sempre itens muito parecidos
Sistemas de Recomendao por Filtragem
Colaborativa
Similaridade entre os usurios
Poucos usurios
Sistemas de Recomendao Hbridos
6
-
Caracterizao do Problema
Tempo gasto na filtragem de contedo.
Utilizao dos recursos em nuvem.
(Zamora, 2011)
7
-
Motivao
(Gantz and Reinsel, 2011)
Previso do crescimento no volume de dado digitais.
Relatrio publicado pela EMC Corporation em 2005.
8
-
Objetivo Geral
Propor um modelo de recomendao de arquivos
para sistemas de armazenamento em nuvem,
utilizando caractersticas da nuvem associadas a
tcnica de recomendao baseada em contedo.
(Souza, 2012)
9
-
Trabalhos Relacionados
Lee et al. (2010)
Um sistema de recomendao de canais televiso
digital (DTV) em um ambiente em nuvem
Propem a anlise, a utilizao dos padres de
visualizaes do usurio no ambiente para
personalizar a recomendao de canais
Utilizado como referncia
Disponibilidade e a conexo do usurio
10
-
Trabalhos Relacionados
Lai et al. (2011)
Um sistema de recomendao de programas de
televiso (TV) baseado em computao em nuvem e
um framework map-reduce
Determina os pesos de cada canal de acordo com o
tempo em que o usurio utilizou.
Recomendao efetuada de acordo com a
similaridade de grupos de usurios
A relevncia de um arquivo atribuda de acordo com
o tempo de acesso.
11
-
RecCloud
Um modelo de recomendao para sistemas de
armazenamento em nuvem
Caractersticas da nuvem
Tcnica de recomendao baseada em contedo
Fatores:
1. Similaridade
2. Disponibilidade
3. Taxa de Download
4. Tamanho do Arquivo
5. Popularidade do Arquivo
12
-
RecCloud
Fator Similaridade
Similaridade entre o arquivo que representa as
preferncias do usurios com os arquivos candidatos
a recomendao.
Tcnica de similaridade do Cosseno (Cheng et al.
2003; Lee at al. 2010; Yu and Zhou 2004).
13
-
RecCloud
Fator Disponibilidade
Quantidade de horas em que um arquivo esta
disponvel na nuvem
Ex: Arquivo A = 12 horas x Arquivo B = 10 horas
O Arquivo A ser mais bem ranqueado que o Arquivo
B
14
-
RecCloud
Fator Taxa de Download
a taxa disponvel para a realizao do download.
Objetivo: Reduzir o tempo gasto no download dos
arquivos recomendados.
0 a 3 Megabits (Akamai 2013).
Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download.
O Arquivo A ser mais bem ranqueado que o Arquivo
B.
15
-
RecCloud
Fator Tamanho do Arquivo
o tamanho do arquivo candidato a recomendao
Valor mximo determinado pelo sistema (Gb)
Objetivo: amenizar o tempo gasto no download
Ex: Arquivo A = 1 Gb x Arquivo B = 10 Gb, mesma
taxa de download
O Arquivo A ser mais bem ranqueado que o Arquivo
B
16
-
RecCloud
Fator Popularidade do Arquivo
a quantidade de downloads realizados de um
arquivo
Popularidade X Similaridade
Ex: Arquivo A = 5 downloads x Arquivo B = 10
downloads
O Arquivo B ser mais bem ranqueado que o Arquivo
A
17
-
RecCloud
Pesos dos Fatores
Fator Peso
Similaridade 4
Disponibilidade 2
Taxa de Download 2
Tamanho do Arquivo 1
Popularidade do Arquivo 1
18
-
RecCloud
Processo de Recomendao
19
-
RecCloud
Clculo
20
-
Avaliao
Coleo de dados
Foram utilizados artigos acadmicos indexados no
engenho de busca ACM Digital Library.
Publicaes da ACM Conference on
Recommendation System RecSys (2012 e 2013).
Download de 156 artigos (.pdf)
10 artigos sobre o trabalho.
166 artigos foram salvos em um conta de usurio no
Ustore.
O backup foi realizado em dois clientes Ustore.
21
-
Avaliao
Julgamento de relevncia
Maior quantidade de downloads realizados no
engenho de busca ACM Digital Library
Artigos similares a proposta e com mais de 100
downloads
20% do total de artigos utilizados (32 artigos)
Anexo A.
22
-
Mtricas de avaliao
Mtrica Definio
Preciso
taxa de itens relevantes
recomendados no resultado em
relao a quantidade de itens
recomendados
Recall
a taxa de itens relevantes
recomendados em relao a
quantidade total de itens
relevantes
F-measure a mdia ponderada da preciso
e recall
23
-
Mtricas de avaliao
Mtrica Definio
Tempo Gasto no Download Tempo gasto no download de
arquivos recomendados
Contedo Recomendado
Avaliar se o contedo
recomendado atende as
preferncia do alvo da
recomendao
24
-
Avaliao
USTORE
Ustore Consiste em uma soluo p2p para o
armazenamento de arquivos de forma distribuda.
O Ustore armazena uma enorme variedade de
arquivos de diversos formatos e tamanhos (.doc, .pdf,
.txt, .jpg e etc.)
25
-
Avaliao
Sistema de recomendao do Ustore
Prottipo implementado:
Fator Similaridade
Tcnica de similaridade do cosseno.
Fator Disponibilidade
Medido em horas, foi utilizada a mdia de disponibilidade de cada usurio.
Fator Taxa de Download
Foi utilizada a taxa de download da rede no momento da realizao dos experimentos.
26
-
Avaliao
Prottipo implementado:
Fator Tamanho do Arquivo
O tamanho do arquivo disponibilizado em bytes na base do Ustore, foram convertidos para GigaBytes
O tamanho do arquivo mximo foi definido em 10 GigaBytes
Fator Popularidade do Arquivo
Este fator teve seus valores atribudos aleatoriamente
27
-
Avaliao
Ambiente
Resultado limitado a 10 recomendaes para cada
solicitao.
Foram realizadas 10 solicitaes de recomendaes.
Foram geradas 100 recomendaes.
As preferncias do usurio foram representadas por
10 artigos escritos sobre a pesquisa.
Cada recomendao foi avaliada pelas mtricas
apresentas.
28
-
Cenrios de avaliao
Cenrio I
Objetivo de avaliar o desempenho do modelo.
Preciso, recall e F-measure.
Cenrio II
Objetivo de avaliar o tempo gasto no download das recomendaes.
RecCloud.
Tcnica baseada em contedo.
Cenrio III
Avaliar o contedo recomendado.
29
-
Resultados Cenrio I
Preciso de 0 a 0.5
Melhor preciso: 0.5
Preciso: 0.27
-13%
30
-
Resultados Cenrio I
Recall de 0 a 0.156
Recall: 0.84
-1%
31
-
Resultados Cenrio I
F-Measure: 0.40
-10%
32
-
Resultados Cenrio II
Recomendaes: 10x5 = 50
RecCloud: O tempo mdio foi de 959,56 ms, variando de 410 ms
a 2.203 ms.
CB: O tempo mdio foi de 1.166,42 ms, variando de 129 ms a
2.717 ms.
33
-
Resultados Cenrio II
A reduo mdia foi de 207,06 milissegundos 17,8%.
34
-
Resultados Cenrio III
Foram avaliadas 100 (cem) recomendaes.
As recomendaes foram avaliadas por um nico
usurio (Like/Dislike).
35
-
Resultados
Possveis ameaas a validao:
Conjunto de dados utilizado
Ambiente controlado
Mtricas de avaliao
36
-
Concluses
Os resultados obtidos foram prximos aos resultados
utilizados como referncia de validao.
Os resultados mostraram que o contedo
recomendado pelo modelo atender as preferncias do
usurio.
37
-
Concluses
Os resultados mostraram que o modelo proposto
conseguiu amenizar o tempo gasto no download dos
arquivos recomendados em relao
O modelo proposto pode ser aplicado a diversos
sistemas de armazenamento em nuvem
38
-
Principais Contribuies
Um estudo sobre modelos de recomendao
baseados em nuvem.
Um modelo de recomendao para sistemas de
armazenamento em nuvem, composto por
caractersticas da nuvem.
A avaliao da proposta em sistemas de
armazenamento em nuvem real.
39
-
Concluses
1. A Cloud-based Recommendation System. IADIS International
Conference WWW-INTERNET (ICWI), Out., 2013, Fort Worth, Texas.
2. RecCloud: Um Sistema de Recomendao Baseado em Nuvem.
Workshop de Teses e Dissertaes do Congresso Brasileiro de Software
(WTDSoft). Set., 2013, Braslia, Distrito Federal, Brasil.
3. Um Sistema de Recomendao Baseado em Nuvem. III Escola Regional
de Informtica de Pernambuco (ERIPE). Nov., 2013, Garanhuns,
Pernambuco, Brasil.
4. A Cloud-based Recommendation Model. 7th Euro American Association
on Telematics and Information Systems, 2014, Valparaso, Chile.
5. RecCloud: A Recommendation Model for Cloud Storage Systems. 10th
International Conference on Web Information Systems and
Technologies, 2014, Barcelona, Espanha.
40
-
Trabalhos Futuros
Realizar novos experimentos com usurios reais, afim
de, avaliar o contedo recomendado pelo modelo
proposto.
Aplicar outras tcnicas de avaliao de sistemas de
recomendao ao modelo.
Realizar os experimentos com pesos diferentes para
cada fator do modelo proposto.
41
-
Trabalhos Futuros
Expanso dos fatores utilizados.
Utilizar a tcnica de recomendao por filtragem
colaborativa.
Propor um modelo de recomendao hbrido.
42
-
RecCloud: Um Modelo de
Recomendao Para Sistemas de
Armazenamento em Nuvem
Ricardo Batista Rodrigues
Recife, 27 de Fevereiro de 2014