Incorporating SAT Solvers into HierarchicalClustering Algorithms - An Efficient and Flexible
Approach
Nathan Siegle Hartmann
Núcleo Interinstitucional de Linguística Computacional (NILC),Instituto de Ciências Matemáticas e de Computação (ICMC),
Universidade de São Paulo (USP)
19 de novembro de 2013
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37
Observação
Material desenvolvido com livre interpretação do paper de Gilpinand Davidson (2011), publicado na 17th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 2/37
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 3/37
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 4/37
Contextualização e Motivação
Agrupamento com restrições é o agrupamento "clássico",porém insere restrições na formação dos grupos.Estudos sobre agrupamento restrito se originaram a umadécada atrás.Trabalhos comumente utilizam apenas regras simples(Must-Link, Cannot-Link e Must-Link-Before).2 grandes gaps foram identificados na área.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 5/37
1o Gap da área
Pouco estudo sobre agrupamento hierárquicoutilizando restrições.
Apesar deMais de 50% das aplicações de agrupamento seremhierárquicas.
Agrupamento hierárquico apresenta um sumáriocompreensivo dos dados.Agrupamento hierárquico pode modelar relações temporais.
O uso de agrupamento hierárquico ser bom em áreas comdomínio conhecido por especialistas.
Especialistas podem especificar diversas restrições paramodelar os grupos de interesse.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 6/37
2o Gap da área
Pouco estudo sobre linguagens de programação paramodelagem dessas restrições.
Apesar deModelar restrições com linguagens procedurais ser um grandelimitante
Design de algoritmos para solucionar restrições.Modelar restrições com linguagens declarativas parecer maisconveniente
Modelagem das restrições
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 7/37
Proposta
Os autores propõe a utilização deFormulação de restrições em lógica de primeira ordem comocláusulas de Horn.
Inconsistências são verificadas em tempo polinomial.Resolução de restrições como um problema SAT(satisfiability)
Cláusulas de Horn fazem com que problemas SAT deixem deser NP Completos.
Se todas as restrições são satisfeitas, o modelo pode serinterprestado como um dendograma válido.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 8/37
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 9/37
Regras
Definição 1. together(x,y,i).
Verdadeiro se x e y estão no mesmo grupo no nível iTodos os tipos de restrições podem ser modelados comtogether e expressos com cláusulas de Horn.
Pode-se definir um dendograma utilizandoA relação together.As seguintes propriedades sejam satisfeitas:Reflexividade, Transitividade, Simetria e Inter-Level link.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 10/37
Propriedades
Definição 2. Propriedade de Reflexividade.
∀i , x [together(x , x , i)]
Toda instancia está no mesmo grupo que ela mesma.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 11/37
Propriedades
Definição 3. Propriedade de Simetria.
∀i , x , y [together(x , y , i)→ together(y , x , i)]
Se x está no mesmo grupo que y em um nível i, então y está nomesmo grupo que x no mesmo nível i.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 12/37
Propriedades
Definição 4. Propriedade de Transitividade.
∀i , x , y , z [together(x , y , i)∧
together(y , z , i)→together(x , z , i)]
Se em um nível i, x está no mesmo grupo que y e esse está nomesmo grupo que z, então x está no mesmo grupo que z nessenível i.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 13/37
Propriedades
Definição 5. Propriedade de Inter-Level link.
∀i , x , y [together(x , y , i)→ together(x , y , i + 1)]
Se x e y estão no mesmo grupo em um nível i, eles permanecerãono mesmo grupo em todos os níveis subsequentes da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 14/37
Propriedades
Definição 6. Propriedade de um DendogramaCompleto.
∀x , y [together(x , y , top)]
Para um dendograma ser completo, o último nível de sua hierarquia(top) deve conter apenas um grupo com todos os elementos.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 15/37
Modelando o Dendograma
Aplicando os passos a seguir, todo modelo reconhecido seráinterpretado como um dendograma completo.
1 Aplica a relação together para refletir um grupo em cada nívelda hierarquia.
Requer que as propriedades de transitividade, simetria ereflexividade sejam satisfeitas.
2 Aplica a relação Inter-Level link para cada nível da hierarquia.3 Assegurar um dendograma completo pela Definição 6.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 16/37
Modelando restrições do usuário
Muitos tipos de restrições podem ser inseridas pelo usuárioutilizando apenas cláusulas de Horn.
Restrição de instância.Restrição para instâncias em um nível específico.Restrições Must-Link Before.
Restrições em dois grupos: Globais e Locais.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 17/37
Restrições Globais
Restrições Cannot-Link e Must-LinkOriginalmente formuladas para agrupamento particional.Cada nível de um agrupamento hierárquico pode serinterpretado como uma partição.Logo essas restrições devem obedecer a todos os níveis dahierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 18/37
Restrições Globais
Observação 1. Restrições Globais Must/Cannot-Link.
ML(a, b) ≡ ∀i [together(a, b, i)]CL(a, b) ≡ ∀i [¬together(a, b, i)]
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 19/37
Restrições Globais
Restrição Must-Link-BeforeOriginalmente formuladas para agrupamento hierarquico.Especifica que duas instâncias a e b são mais similares entre sido que a uma terceira instância c.Instâncias a e b estão no mesmo grupo antes de c ser inserido.Se a, b e c estão no mesmo grupo, então a e b já estavam nomesmo grupo em um nível anterior da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 20/37
Restrições Globais
Observação 2. Restrição Global Must-Link-Before.
MLB(a, b, c) ≡∀i [together(a, c, i + 1)→ together(a, b, i)]∀i [together(b, c, i + 1)→ together(a, b, i)]¬together(b, c, 1)¬together(a, c, 1)
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 21/37
Restrições Locais
Atribuir restrições para níveis específicos da hierarquia.
Não são comumente utilizadasRequer conhecimento de domínio sobre a relação de duasinstâncias em um dado nível da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 22/37
Outras restrições
Observação 3. Must-Link-Befored .
must-link-befored(a, b, c) ≡∀i [together(a, c , i + d)→ together(a, b, i)]∀i [together(b, c , i + d)→ together(a, b, i)]
¬together(b, c , 1)...¬together(b, c , d)¬together(a, c , 1)...¬together(a, c , d)
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 23/37
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 24/37
Algoritmo Genérico para solução de restrições
Complexidade O(l2n + n2), ln = literais negativos, n = instâncias
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 25/37
Experimentos
Questões de interesseA incorporação de restrições em algoritmos hierárquicosproduz resultados indesejados?Restrições mais complexas produzem melhores resultados doque as menos complexas?
Must-Link-Befored e Must-Link-Before.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 26/37
Dados de teste
Conjunto de dados de testeArtificial Data SetNewsgroup Data Set
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 27/37
Dados de teste
Artificial Data SetFormado segundo uma distribuição gaussiana.Hierarquia em 5 níveisDataset com 120 instâncias de 5 dimensões
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 28/37
Dados de teste
Newsgroup Data Set
20 Newsgroup data set, coleção de 20 mil documentospertencentes a 20 categorias.Dados organizados em hierarquias.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 29/37
Experimentos
Simulação1 Inicializa com um conjunto vazio de regras.2 Gerar um dendograma com o conjunto de regras.
Single Linkage e Complete Linkage.3 Comparar a saída obtida com a estrutura real do dendograma
(conhecimento prévio)4 Adicionar regras de forma a corrigir erros de merge de pontos
muito cedo no dendograma.Must-Link-Before e Must-Link-Befored .
5 Rodar novamente o experimento a partir do passo 2 com oconjunto de regras atualizado, até que não haja mais erros.
Repetir 10 vezes o experimento.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 30/37
Medidas de Avaliação
F-score ≡ (1+ β2) · P·R(β2·P)+R
Trade-off entre as medidas de precisão e revocação
H-Correlation ≡ SbSt+Sl
Medida desenvolvida para algoritmos hierárquicos.Relação entre acertos em ambas as bases, correta e teste, (Sb)e a soma dos acertos na base correta (St) e na base de teste(Sl).
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 31/37
Experimentos
Resultados para o conjunto de dados gerados artificialmente
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 32/37
ExperimentosResultados para o conjunto de dados gerados a partirda 20 Newsgroup data set
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 33/37
Resultados
A adição de regras Must link befored melhora a qualidade dahierarquia conforme o número de restrições aumenta.Must-Link-Befored superou o Must-Link-Before em ambas asmedidas F-score e H-correlation.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 34/37
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 35/37
Considerações Finais
Lógica é uma boa escolha para especificação de restriçãodevido a sua formalidade.Uma direção de pesquisa é maximizar o número de restriçõessatisfeitas no caso de um conjunto inconsistente de restrições.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 36/37
Referências I
Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchicalclustering algorithms: An efficient and flexible approach. In Proceedings ofthe 17th ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’11, New York, NY, USA, pp. 1136–1144. ACM.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 37/37