constrained k means clustering with background knowledge - cop-kmeans
Upload: institute-of-mathematics-and-computer-science-university-of-sao-paulo
Post on 12-Jul-2015
126 views
TRANSCRIPT
.
......
Constrained K-means Clustering with BackgroundKnowledgeCOP-Kmeans
Sibelius Seraphini
Instituto de Ciências Matemáticas e de ComputaçãoUniversidade de São Paulo
1 de dezembro de 2014
Sibelius Seraphini COP-Kmeans 1 / 14
.. k-Means
...1 Escolhe aleatoriamente k centros para os clusters
...2 Atribuir cada objeto para o cluster de centro mais próximo
...3 Atualizar cada centro para a média dos objetos do clustercorrespondente
Sibelius Seraphini COP-Kmeans 2 / 14
..k-MeansPerspectiva de Otimização
Variância intra-cluster
min
K∑
k=1
L∑i=1
δ(xi, ck)N∑
j=1
(xij − xkj)2
Sibelius Seraphini COP-Kmeans 3 / 14
.. Como incorporar conhecimento prévio?
Agrupamento de Dados Semi-SupervisionadoRestrições
Nível de InstânciaNível de Cluster
Sibelius Seraphini COP-Kmeans 4 / 14
.. Restrições (COP-kMeans)
Restrições em Nível de Instância
Must-Link — duas instâncias devem estar no mesmo clusterCannot-Link — duas instâncias não devem estar no mesmocluster
Restrições nunca são quebradas
Sibelius Seraphini COP-Kmeans 5 / 14
.. COP-kMeans
...1 Escolhe aleatoriamente k centros para os clusters
...2 Atribuir cada objeto para o cluster de centro mais próximosem violar as restrições
...3 Atualizar cada centro para a média dos objetos do clustercorrespondente
Sibelius Seraphini COP-Kmeans 6 / 14
.. Tratando Restrições
Para todos as instâncias tentar atribuí-lo ao centro k mais próximo...1 Sem restrição quebrada
Atribuir a instância i ao cluster k...2 Restrição quebrada → existe outro próximo cluster?
Retorna para 1, se simFalhar
Sibelius Seraphini COP-Kmeans 7 / 14
..COP-kMeansPerspectiva de Otimização
min{∑K
k=1
∑Li=1
[δ(xi, ck)
∑Nj=1(xij − xkj)2
]}sujeito a
12
∑Li=1
∑Lj=1
[Con(i, j) ·
[12Con(i, j)− β(Ii, Ij) + 1
2
]]= 0
Con(i, j) =
1, se xi e xj é Must-Link−1, se xi e xj é Cannot-Link0, caso contrário
β(Ii, Ij) ={
1, se Ii = Ij0, caso contrário
Sibelius Seraphini COP-Kmeans 8 / 14
.. Resultados Experimentais
(K. Wagstaff et al. 2001)
Sibelius Seraphini COP-Kmeans 9 / 14
..Resultados ExperimentaisDescoberta de pista utilizando GPS
(K. Wagstaff et al. 2001)
Sibelius Seraphini COP-Kmeans 10 / 14
.. Limitações
Sensível a ordem de atribuiçãoSolucionado por (Hong e Kwong 2009), usando um conjuntode algoritmos de agrupamento
Sibelius Seraphini COP-Kmeans 11 / 14
.. Quando restrições são vantajosas?
Mesmo número de restrições leva a diferentes desempenhos
(K. L. Wagstaff, Basu eDavidson 2006)
InconsistênciaMédia de restriçõesinsatisfeitas utilizando oalgoritmo sem restrições
IncoerênciaOs pontos envolvidos narestrição ML deveriamestar perto, enquanto quepontos envolvidos narestrição CL deveriamestar afastados
Sibelius Seraphini COP-Kmeans 12 / 14
.. Agrupamento de Dados Semi-Supervisionado
PC-KMeans - satisfação de restrição soft, i.e., algumasrestrições podem ser quebradas (Bilenko, Basu e Mooney2004)M-KMeans - aprendizagem de métrica (função de distância)utilizando as restrições (Bilenko, Basu e Mooney 2004)MPC-KMeans - abordagem hibrida - aprendizagem de métricae de satisfação de restrição soft (Bilenko, Basu e Mooney2004)
Sibelius Seraphini COP-Kmeans 13 / 14
.. ReferênciasMikhail Bilenko, Sugato Basu e Raymond J Mooney.“Integrating constraints and metric learning insemi-supervised clustering”. Em: Proceedings of thetwenty-first international conference on Machinelearning. ACM. 2004, p. 11.Yi Hong e Sam Kwong. “Learning assignment order ofinstances for the constrained k-means clusteringalgorithm”. Em: Systems, Man, and Cybernetics, PartB: Cybernetics, IEEE Transactions on 39.2 (2009),pp. 568–574.Kiri Wagstaff et al. “Constrained k-means clusteringwith background knowledge”. Em: ICML. Vol. 1.2001, pp. 577–584.Kiri L Wagstaff, Sugato Basu e Ian Davidson. “Whenis constrained clustering beneficial, and why?” Em:Ionosphere 58.60.1 (2006), pp. 62–3.
Sibelius Seraphini COP-Kmeans 14 / 14