Acessibilidade / Reportar erro

Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados Este trabalho foi parcialmente financiado pela Fundação de Amparo á Pesquisa do Estado de São Paulo (2014/25302-2) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (200959/2010-7).

RESUMO

Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores.

Palavras-chave:
Classificação; conjunto de dados desbalanceados; aprendizado de máquina

ABSTRACT

Galaxies can have various morphologies, which are an important source of information for cosmology. The Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) is a survey of thousands of galaxy images far from the Earth. Unfortunately, it is not possible to manually classify all of these galaxies. Hence, it is important to develop automatic classifiers that are able to accurately predict morphologies using such images. Unfortunately, standard prediction techniques have low predictive power on unbalanced datasets such as CANDELS. Hence, this work aims at studying three classification approaches developed to improve classification on unbalanced data using CANDELS. We deal with the problem of classifying galaxies as regulars and as mergers. We show that oversampling and changing the cutoff were effective approaches to improve merger classification, while they were not so effective in classifying regular galaxies. We also show that all classification methods used (classification trees, random forests and penalized logistic regression) yielded similar predictions, which indicates that better predictions could only be obtained by including new summary statistics of the images or by acquiring larger data sets.

Keywords:
Classification; unbalanced datasets; machine learning

1 INTRODUÇÃO

Galáxias podem possuir diversas morfologias. Um esquema usual de classificação morfológica de galáxias foi criado por 99 E.P. Hubble. Extragalactic nebulae. In: The Astrophysical Journal, 64 (1926)., que propõe as seguintes categorias principais (veja a Figura 1):

  • Galáxias Elípticas. Têm uma distribuição suave de luz e têm a aparência de uma elipse.

  • Galáxias Espirais. Consistem em um disco achatado, com estrelas formando uma estrutura espiral sobre ele.

  • Galáxias Irregulares. Possuem uma morfologia perturbada e sem nenhum padrão. Possuem assimetria, núcleos descentralizados e estrutura irregular e caótica.

Figura 1:
Exemplos de morfologia espiral, elíptica e irregular, respectivamente.

Além destas morfologias, galáxias também podem interagir umas com as outras. Em particular, quando elas estão se juntando são chamadas de galáxias merger (veja a Figura 2).

Figura 2:
Exemplos de morfologia merger e de interação, respectivamente.

Tais categorias podem ser agrupadas em duas grandes classes: regulares - quando possuem forma espiral ou elíptica - e não regulares - quando são do tipo merger, de interação e/ou irregulares 88 V.O. Gil, F. Ferrari & L. Emmendorfer. Investigação da aplicação de algoritmos de agrupamento para o problema astrofísico de classificação de galáxias. In: Revista Brasileira de Computação Aplicada, 7(2) (2015), 52-61.. A Figura 3 apresenta exemplos de galáxias do conjunto investigado neste trabalho.

Figura 3:
Exemplos de imagens do conjunto de dados CANDELS: galáxias elíptica, irregular e merger, respectivamente.

Estudar morfologicamente galáxias é fundamental para a corroboração de teorias sobre a formação e evolução cosmológica. Assim, é necessário um sistema que classifique eficientemente cada uma das imagens. Essa classificação pode ser feita por especialistas humanos, mas esse processo é escessivamente demorado tanto no seu desenvolvimento quanto em sua implementação 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.. Comumente, opta-se, portanto, pela utilização de classificadores automáticos, construídos com base em covariáveis extraídas de imagens 22 C.J. Conselice. The relationship between stellar light distributions of galaxies and their formation histories. The Astrophysical Journal Supplement Series, 147(1) (2003), 1.),(66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.),(1515 J.M. Lotz, J. Primack & P. Madau. A new nonparametric approach to galaxy morphological classification. The Astronomical Journal, 128(1) (2004), 163..

Infelizmente, classificadores automáticos usuais não produzem resultados satisfatórios em situações nas quais uma das morfologias é demasiadamente mais frequente do que outras 2121 S. Visa & A. Ralescu. Issues in mining imbalanced data sets-a review paper. Proceedings of the sixteen midwest artificial intelligence and cognitive science conference, 2005 (2005), 67-73.),(1414 S. Kotsiantis, D. Kanellopoulos & P. Pintelas. Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering, 30(1) (2006), 25-36.),(2020 Y. Sun, A.K.C. Wong & M.S. Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04) (2009), 687-719.. Essa situação ocorre frequentemente em levantamentos astronômicos como o Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS;1313 A.M. Koekemoer, S.M. Faber, H.C. Ferguson, N.A. Grogin, D.D. Kocevski, D.C. Koo, K. Lai, J.M. Lotz, R.A. Lucas & E.J. McGrath et al. CANDELS: The Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey - The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. The Astrophysical Journal Supplement Series, 197(2) (2011), 36.), conjunto este composto por 1639 galáxias e que foi utilizado no presente trabalho. Nele, observamos que aproximadamente 25% das galáxias são não regulares e que apenas 5% são merger. Assim, torna-se evidente a necessidade da aplicação de métodos mais sofisticados para tal problema. Neste trabalho, consideramos técnicas específicas para problemas de dados desbalanceados para que as classificações automáticas de galáxias sejam mais mais precisas. Além disso, utilizamos técnicas que não levam em conta o desbalanceamento, a fim de investigar a importância de considerar a falta de balanceamento para esse conjunto de dados. Embora diversos trabalhos utilizem correções para amostras desbalanceadas para a classificação morfológica de galáxias (e.g. 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.),(1616 K. Małek, A. Solarz, A. Pollo, A. Fritz, B. Garilli, M. Scodeggio, A. Iovino, B.R. Granett, U. Abbas & C. Adami et al. The VIMOS Public Extragalactic Redshift Survey (VIPERS) - A support vector machine classification of galaxies, stars, and AGNs. Astronomy & Astrophysics, 557 (2013), A16.),(1818 M. Pović, J.A.L. Aguerri, I. Márquez, J. Masegosa, C. Husillos, A. Molino, D. Cristóbal-Hornillos, J. Perea, N. Benítez & A. del Olmo et al. The ALHAMBRA survey: reliable morphological catalogue of 22 051 early-and late-type galaxies. Monthly Notices of the Royal Astronomical Society, 435(4) (2013), 3444-3461.), os autores deste artigo desconhecem comparações entre as diferentes abordagens propostas na literatura como as feitas aqui.

Neste artigo, focamo-nos no desenvolvimento de métodos de classificação para galáxias do tipo não regulares e do tipo merger. Embora o foco deste trabalho seja o conjunto CANDELS, as técnicas aqui exploradas podem ser aplicadas a uma grande gama de problemas das mais diversas áreas do conhecimento.

O restante desse trabalho é dividido da seguinte maneira: a Seção 2 introduz os métodos de classificação utilizados neste artigo. Os resultados são apresentados na Seção 3. Finalmente, as conclusões são apresentadas na Seção 4.

2 METODOLOGIA

O conjunto de dados CANDELS é uma composição de fotografias de mais de 250 mil galáxias distantes da Terra feitas com três câmeras separadas no Telescópio Espacial Hubble 1313 A.M. Koekemoer, S.M. Faber, H.C. Ferguson, N.A. Grogin, D.D. Kocevski, D.C. Koo, K. Lai, J.M. Lotz, R.A. Lucas & E.J. McGrath et al. CANDELS: The Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey - The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. The Astrophysical Journal Supplement Series, 197(2) (2011), 36.. Desse total de galáxias, 1639 foram classificadas manualmente por, pelo menos, dois astrônomos. Para que a classificação das galáxias fosse feita, os autores de66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295. calcularam oito medidas resumo (chamadas C, S, M, I, D, A, Gini e m20) para cada uma das imagens do banco. Essas estatísticas são covariáveis a serem utilizadas pelo classificador automático e medem a concentração de luz, assimetria, presença de dois núcleos, além de outras características de cada uma das galáxias (vide Apêndice para mais detalhes). Assim, os dados são compostos de (I) classificação das galáxias segundo especialistas e (II) valores das estatísticas que ajudam a predizer a morfologia destas galáxias.

Pode haver discordâncias sobre a categoria à qual a galáxia pertence, a depender do especialista que a avalia. Assim, para definir a classificação de uma dada galáxia, utilizou-se o voto da maioria 44 L.G. Esteves, R. Izbicki & R.B. Stern. Teaching decision theory proof strategies using a crowdsourcing problem. Submetido para American Statistician, (2016).), (1111 R. Izbicki & R.B. Stern. Learning with many experts: model selection and sparsity. Statistical Analysis and Data Mining, 6(6) (2013), 565-577.: uma galáxia foi classificada como não regular quando a proporção de votantes desta classe foi maior do que 50%. Do mesmo modo, uma galáxia foi classificada como merger quando a proporção de votantes desta classe foi maior do que 50%. Enfatizamos que, infelizmente, o conjunto de dados utilizado não possui informações sobre o voto de cada astrônomo. Contudo, em bancos nos quais esta identificação existe, modelos mais complexos que levam em conta a diversidade entre astrônomos podem ser utilizados (e.g. 1111 R. Izbicki & R.B. Stern. Learning with many experts: model selection and sparsity. Statistical Analysis and Data Mining, 6(6) (2013), 565-577.).

Denotamos por (X 1 , Y 1), ... , (X n, Yn ) a amostra observada, em que X i é o vetor de covariáveis C, S, M, I, D, A, Gini, m20 e Y é, em um primeiro momento, a variável que indica se a galáxia é regular ou não regular e, em um segundo momento, a variável que indica se a galáxia é ou não merger (i.e., foram resolvidos dois problemas de classificação separadamente)1 1 As três categorias não são mutuamente exclusivas. Por exemplo, uma galáxia pode ser merger e não regular simultaneamente. Assim, o problema não pode ser trivialmente abordado sob uma ótica trinomial. Salientamos, também, que a ordem de solução dos problemas não influencia os resultados. . Assim, Y ∈ {0, 1}. De modo a comparar os diversos modelos ajustados, dividimos o conjunto de dados de forma aleatória em duas partes: um conjunto de treinamento (1230 amostras) e um de teste (409 amostras) 77 J. Friedman, T. Hastie & R. Tibshirani. The elements of statistical learning. 1 (2001), Springer series in statistics Springer, Berlin.), (1212 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013).. O conjunto de treinamento foi utilizado para ajustar diversas versões de um mesmo modelo (i.e., com diferentes parâmetros de tuning) e selecionar, entre elas, aquela que minimiza o risco estimado por validação cruzada. Já o conjunto de teste foi utilizado para avaliar o risco dos modelos selecionados. Todas as técnicas foram implementadas utilizando a linguagem R 1919 R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing, (2016), https://www.R-project.org/
https://www.R-project.org/...
.

2.1Métodos de classificação

Os seguintes métodos de classificação usuais (i.e., que não levam em conta o desbalanceamento dos dados) foram aplicados ao conjunto de dados 77 J. Friedman, T. Hastie & R. Tibshirani. The elements of statistical learning. 1 (2001), Springer series in statistics Springer, Berlin.), (1212 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013).), (1010 R. Izbicki. Machine Learning sob a ótica estatística, (2016), rizbicki.wordpress.com/teaching/
rizbicki.wordpress.com/teaching/...
:

  • Árvores de classificação O critério de divisa˜o utilizado foi o ´ındice de Gini, que quantifica a pureza de uma dada folha2 2 Isto é , é uma medida numérica de quão homogêneas são as categorias das observações referentes àquela folha. m via

  • em que m. Tal índice foi escolhido pois (i) ele, em geral, é mais sensível à pureza que, por exemplo, a proporção de erros feita em cada folha 1212 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013). e (ii) é trivial adaptá-lo para o cenário com pesos. A profundidade da árvore foi escolhida por validação cruzada. é a proporção de amostras do conjunto de treinamento com rótulo 1 entre aquelas pertencentes à folha

  • Florestas aleatórias. Como recomendado por 1212 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013)., o número de preditores considerados em cada divisão foi de m, em que p é o número de covariáveis. Além disso, 500 árvores foram utilizadas.

  • Regressão logística penalizada. Utilizou-se a penalização L1 (77 J. Friedman, T. Hastie & R. Tibshirani. The elements of statistical learning. 1 (2001), Springer series in statistics Springer, Berlin.), uma vez que ela faz, automaticamente, uma seleção de variáveis. O valor do parâmetro de penalização foi escolhido via validação cruzada. Estimado o valor de P(Y = 1|x), tal quantidade foi substituída em 𝕀(P(Y = 1|x) ≥ 0.5) para criar um classificador.

Além dos métodos de classificação tradicionais descritos acima, foram também consideradas três abordagens para corrigir o desbalanceamento dos dados, descritas nas sequência.

Sobreamostragem. Esta abordagem consiste em criar artificialmente um conjunto de dados balanceado (2020 Y. Sun, A.K.C. Wong & M.S. Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04) (2009), 687-719.). Isso foi feito acrescentando-se réplicas com reposição da amostra da categoria menos frequente até que os conjuntos de treinamento tivessem o mesmo número de observações em cada categoria. Os métodos descritos na Subseção 2.1 foram, em seguida, ajustados utilizando o conjunto de dados que fora balanceado. Nota-se que o conjunto de teste foi mantido, pois ele representa a população de interesse.

Atribuição de pesos. Nesta abordagem, atribuem-se pesos para cada observação. Em particular, atribuímos pesos maiores a observações de classes menos frequentes. Mais especificamente, o peso atribuído para a i-ésima observação foi:

Aqui, n1 é o número de observações da classe mais frequente, n2 é o número de observações da classe menos frequente e n = n1 + n2.

A forma como tais pesos são usados depende do método de classificação em questão. Para o caso do método de árvores, foi feita uma correção no índice de Gini, o qual, para uma dada folha m, passou a ser: , em que

em que Nm é o número de observações pertencentes à folha m e m que pertencem à classe 1. O mesmo procedimento foi utilizado na construção de cada árvore no caso de florestas aleatórias. é a proporção de observações na folha

No caso da regressão logística penalizada, os pesos foram incluídos na função de verossimilhança. Assim, buscou-se pela solução de

Aqui, β 1 tem dimensão p, assim como x i .

Mudança do corte. O risco R(g) = 𝕀(g(X ) ≠ Y), que motiva o uso dos classificadores tradicionais 77 J. Friedman, T. Hastie & R. Tibshirani. The elements of statistical learning. 1 (2001), Springer series in statistics Springer, Berlin., não é adequado quando o conjunto de dados é desbalanceado. Por exemplo, para g(X) ≡ 0, o risco da função g(X) será baixo se Y = 1 ocorrer com frequência muito pequena, mas nenhuma nova observação será classificada como sendo da classe minoritária. Assim, como forma de contornar o problema, definiu-se uma segunda função de risco, dada por:

em que π0 é a probabilidade de uma observação pertencer à classe Y = 0 e π1 é a probabilidade de uma observação pertencer à classe Y = 1. Assim, dá-se maior importância ao erro de uma observação da classe 1 ser classificada como pertencente à classe 0 e menor importância ao erro de uma observação da classe 0 ser classificada como pertencente à classe 1. A função g(x) que minimiza a esperança acima é dada por g(x) = 𝕀(P(Y = 1|x)> π1). De fato, a decisão ótima é g(x) = 1 se, e somente se,

Isso motiva o uso do classificador 𝕀(Y = 1|x) ≥ (Y = 1)), em que ((Y = 1) é a proporção amostral da classe de interesse.(Y = 1|x) foi estimada por meio dos métodos descritos anteriormente e

2.2Qualidade do ajuste

Para avaliar a qualidade preditiva dos métodos investigados, as medidas utilizadas foram (2020 Y. Sun, A.K.C. Wong & M.S. Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04) (2009), 687-719.): sensibilidade - S =VP / VP+FN; especificidade - E = VN / VN+FP valor predito positivo - VPP = VP / VP+FP valor predito negativo - VPN =VN / VN+FN; medida F - Medida F = S.VPP / S+VPP média S.E. = S+E / 2. Aqui, VP denota verdadeiro positivo; VN, verdadeiro negativo; FP, falso positivo e FN, falso negativo. Em um primeiro momento, positivo indica galáxia regular. Em um segundo momento, ser positivo indica galáxia merger. = 2.

3 RESULTADOS

Das 1639 galáxias no banco, 500 são não regulares (aproximadamente 30%) e 128 são do tipo merger (aproximadamente 8%). Na Subseção 3.1, apresentamos a performance de cada um dos métodos utilizados. Na Subseção 3.2, é feita a comparação entre os resultados via as estatísticas F e S.E., que sumarizam as demais. Já na Subseção 3.3, é avaliada a concordância entre as predições dos diversos métodos. Finalmente, na Subseção 3.4, ilustramos alguns dos classificadores obtidos.

3.1 Medidas de qualidade

As Tabelas 1 a 4 mostram as medidas de qualidade e seus respectivos intervalos de confiança 95% calculados por bootstrap33 B. Efron. The jackknife, the bootstrap and other resampling plans. 38 (1982), SIAM. para os classificadores obtidos. Os resultados em negrito foram provenientes dos métodos que apresentaram as melhores medidas de qualidade em termos pontuais. Deve-se atentar que, em muitos dos casos, os intervalos de confiança indicam que, na realidade, estes valores são bastante parecidos com os demais.

Tabela 1:
Medidas de qualidade para métodos usuais (i.e., sem correção por falta de balanceamento).

Tabela 2:
Medidas de qualidade por abordagem de sobreamostragem.

Tabela 3:
Medidas de qualidade por abordagem de atribuição de pesos.

Tabela 4:
Medidas de qualidade por abordagem de mudança de corte.

3.2 Comparação entre os classificadores

A Figura 4 sumariza as principais medidas de qualidade para o problema de classificação de galáxias merger. Podemos observar que as correções nos métodos melhoram bastante as classificação de tais galáxias, o que é natural, visto que essa classe possui um desbalanceamento acentuado. Pode-se também notar que os métodos de sobreamostragem e pesos foram muito próximos em todos os casos. Isso ocorre porque os pesos aumentam artificialmente a importância de cada observação da classe menos frequente, do mesmo modo que a sobreamostragem aumenta o tamanho da classe menos frequente, igualando seu tamanho ao da classe mais frequente. Esta figura também indica que as árvores criadas segundo as abordagem de sobreamostragem e atribuição de pesos apresentam resultados superiores aos obtidos com a abordagem usual para o caso de galáxias merger. Além disso, árvores com correções de sobreamostragem e pesos apresentaram resultados melhores do que florestas, o que, em um primeiro momento, pode causar estranheza, pois árvores, em geral, possuem baixo poder preditivo. Isso pode ser justificado notando que o objetivo de florestas é diminuir o erro preditivo E(𝕀(g(X) ≠ Y )); observando as Tabelas 2 e 3, podemos concluir que isso realmente ocorreu. No entanto, florestas aumentaram o número de falsos negativos, o que diminuiu a sensibilidade, de modo que a performance de árvores foi melhor nesse sentido. Além disso, todas as galáxias foram preditas como não sendo do tipo merger para o caso de árvores sem correção e, portanto, mudar o corte não tem nenhum efeito: a probabilidade de uma observação pertencer à classe de galáxias que não são do tipo merger é estimada como 1. Devido a esse fato, o erro-padrão foi zero (Figura 4). Finalmente, observa-se que os resultados de florestas e regressão logística foram próximos quando utilizamos a abordagem de mudança de corte.

Figura 4:
Medidas F (acima) e S.E. (abaixo) para classificação de galáxias do tipo merger.

A Figura 5, que sumariza as principais medidas de qualidade para o problema de classificação de galáxias regulares, evidencia que as três abordagens que consideram o desbalanceamento melhoraram o método de regressão logística para o caso de galáxias regulares. Este método foio melhor para predizer galáxias regulares. Em relação aos métodos sem correção, o melhor foi o de florestas aleatórias. Nota-se, contudo, que as correções nos métodos melhoraram muito mais os resultados da classificação de galáxias merger do que a de regulares, o que era esperado, visto que a primeira classe possui um desbalanceamento muito mais acentuado do que a classe de regulares.

Figura 5:
Medidas F (acima) e S.E. (abaixo) para classificação de galáxias regulares.

3.3 Concordância entre os classificadores

Nesta subseção, investigamos o nível de concordância entre as predições fornecidas por cada um dos três modelos de predição utilizados na subseção anterior. Para tanto, selecionou-se, para cada abordagem, qual das quatro versões apresentava melhor performance segundo a estatística F. Os resultados para a estatística S.E. são semelhantes e, portanto, foram omitidos.

Para o caso de classificação de galáxias regulares, a melhor árvore de classificação e a melhor floresta aleatória foram aquelas com abordagem de sobreamostragem e a melhor regressão logística penalizada foi aquela com abordagem de mudançaa de corte. A Tabela 5 (esquerda) mostra a concordância dos melhores métodos. Para o caso de classificação de galáxias merger, a melhor árvore de classificação foi aquela sem correção (usual), a melhor floresta aleatória foi aquela com abordagem de atribuição de pesos e a melhor regressão logística penalizada foi aquela sem correção (usual). A Tabela 5 (direita) mostra a concordância dos melhores métodos.

Tabela 5:
Proporção de observações preditas igualmente por diferentes métodos - galáxias regulares (esquerda) e galáxias merger (direita).

A concordância é alta em ambas as tabelas, indicando que os melhores métodos levam a predições parecidas, apesar de terem naturezas bastante diferentes.

3.4 Ilustração dos classificadores obtidos

Em favor da concisão, apresentamos apenas os classificadores obtidos para classificação de galáxias merger para o método usual e para a abordagem de sobreamostragem, uma vez que os resultados omitidos levam a conclusões parecidas àquelas aqui apresentadas.

No caso da classificação pelo método de árvores, todas as galáxias do conjunto de teste foram classificadas como não sendo do tipo merger. Assim, sua representação gráfica foi omitida. De fato, 375 observações foram corretamente previstas como não sendo do tipo merger (100%), porém nenhuma observação foi corretamente predita como merger. Por outro lado, a Figura 6 evidencia que a árvore obtida considerando a abordagem de sobreamostragem é bem mais inte ressante. As estatísticas I, D e A são as covariáveis mais importantes segundo esta abordagem. Trezentas e dezenove (85%) observações foram corretamente previstas como não sendo do tipo merger e 21 (61.8%) observações foram corretamente previstas como sendo do tipo merger3 3 Isto é, 61.8% das galáxias merger do conjunto de teste foram classificadas como merger. , o que também evidencia a melhora nas predições obtida ao se considerar o desbalanceamento.

Figura 6:
Árvore de classificação para galáxias merger obtida pelo método de sobreamostragem.

A Figura 7 indica que as covariáveis consideradas mais importantes para classificar galáxias merger segundo o método de florestas aleatórias sem correção foram D, I, e A. Trezentas e setenta e uma observações foram corretamente previstas como não sendo do tipo merger (aproximadamente 99%) e quatro observações foram corretamente preditas como merger (aproximadamente 12%). Quando corrigidas utilizando-se sobreamostragem, as covariáveis mais importantes na predição das galáxias merger segundo florestas aleatórias foram I, D, M e A, como indica a Figura 7. Além disso, nove observações foram corretamente previstas como não sendo do tipo merger e 364 observações foram corretamente previstas como sendo do tipo merger.

Figura 7:
Classificação das galáxias regulares e não regulares pelo método de florestas aleatórias. Abordagem usual (à esquerda) e de sobreamostragem (à direita). O MeanDecreaseGini mede o quanto adicionar uma covariável na árvore diminui (em média) o índice de Gini 1212 G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013)..

A Tabela 3.4 apresenta os coeficientes estimados segundo a regressão logística penalizada usual. As variáveis mais importantes na classificação de galáxias merger (i.e., variáveis associadas a coeficientes com maior magnitude) foram I, D e A. Além disso, 370 observações foram corretamente previstas como não sendo do tipo merger (aproximadamente 99%) e três observações foram corretamente preditas como sendo do tipo merger (aproximadamente 9%). A Tabela 3.4 também apresenta os coeficientes estimados para o mesmo método, mas com correção por sobreamostragem. As variáveis mais importantes foram, novamente, I, D e A. Além disso, 320 observações foram corretamente previstas como não sendo do tipo merger (aproximadamente 85%) e 19 observações foram corretamente preditas como sendo do tipo merger (aproximadamente 56%).

Tabela 6:
Coeficientes estimados pelo método de regressão logística penalizada usual (segunda coluna) e sobreamostragem (terceira coluna). Coeficientes estimados como zero por ambos os métodos são suprimidos.

4 CONCLUSÕES

Neste trabalho, diversas técnicas de classificação foram aplicadas ao levantamento CANDELS com o objetivo de predizer automaticamente quais galáxias são não regulares e quais são do tipo merger. Considerando que técnicas tradicionais apresentaram baixo poder preditivo por se tratar de dados desbalanceados, três correções a tais métodos foram utilizadas: sobreamostragem, atribuição de pesos e mudança de corte.

As medidas de qualidade de ajuste indicam que considerar o desbalanceamento não é tão importante para a classe de galáxias regulares. Isso ocorre pois essa classe não possui um forte desbalanceamento. Contudo, para o caso de galáxias merger, as abordagens que consideram o desbalanceamento melhoraram significativamente a performance dos classificadores usuais. Quando o desbalanceamento não foi considerado, o método árvore de classificação apresentou a pior performance. Em geral, com as devidas correções, este método apresentou grandes melhorias nas medidas de qualidade, exceto no caso de mudança de corte. Isso ocorre pois árvores são construídas com o objetivo de minimizar a proporção de erros feita, e não de obter uma boa estimativa de P(Y = 1|x). Por sua vez, o método de florestas aleatórias apresentou os melhores resultados quando o desbalanceamento não foi considerado. Porém, considerando as abordagens, ele é pior do que árvores para algumas situações. Finalmente, o método de regressão logística penalizada apresentou grandes melhorias quando consideramos as abordagens aqui estudadas, principalmente quando se muda o corte.

O fato de os métodos baseados em sobreamostragem terem resultados semelhantes a métodos com atribuição de pesos não é surpreendente. Deve-se destacar, contudo, que a vantagem do uso de pesos é que o tempo computacional para a sua execução é menor, pois não há necessidade de se trabalhar com um conjunto de dados maior. Por outro lado, a sobreamostragem é uma abordagem bastante geral que pode ser aplicada a qualquer classificador, ao passo que a forma com que os pesos são implementados é bem específica para cada método de classificação, o que faz com que a abordagem nem sempre seja trivial de ser implementada.

Semelhantemente ao que foi observado por 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295., todos os métodos de classificação concordaram que as estatísticas I, D e A foram as mais importantes para a classificação tanto de galáxias regulares quanto de galáxias merger. Além disso, uma comparação entre valores preditos dos métodos que apresentaram melhor performance mostrou que os métodos levam a predições parecidas na maioria das vezes (concordâncias superiores a 85%). Isso indica que, possivelmente, melhores predições apenas podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de um banco de dados maior, e não pela aplicação de novos métodos a este banco. Alternativamente, pode-se buscar combinar os resultados dos métodos apresentados a partir de técnicas de stacking.

Outras direções futuras incluem: verificar a acurácia que cada um dos classificadores desenvolvidos tem ao estimar como cada morfologia evolui segundo redshift (tempo cósmico) (e.g. 11 C.J. Conselice. The Evolution of Galaxy Structure Over Cosmic Time. Annual Review of Astronomy and Astrophysics, 52 (2014), 291-337.), incorporar novas estatísticas resumo (inclusive algumas criadas automaticamente, e.g. 1717 M.A. Peth, J.M. Lotz, P.E. Freeman, C. McPartland, S.A. Mortazavi & G.F. Snyder et al. Beyond spheroids and discs: classifications of CANDELS galaxy structure at 1.4 < z < 2 via principal component analysis. Monthly Notices of the Royal Astronomical Society, 458(1) (2016), 963-987.), utilizar técnicas multivariadas para classificar diversas morfologias simultaneamente 55 D. Fraix-Burnet, M. Thuillard & A.K. Chattopadhyay. Multivariate Approaches to Classification in Extragalactic Astronomy. In: Frontiers in Astronomy and Space Sciences, 2 (2015), 3. e, finalmente, utilizar técnicas semi-supervisionadas (i.e., que fazem uso de amostras não classificadas) para melhorar as predições 2323 X. Zhu. Semi-supervised learning. Encyclopedia of machine learning. Springer, (2011), 892-897..

AGRADECIMENTOS

Os autores agradecem a Adriano Polpo de Campos, Danilo Lourenc¸o Lopes, Sarah Izbicki, os revisores e os editores pelas valiosas sugestões feitas a esse trabalho.

REFERÊNCIAS

  • 1
    C.J. Conselice. The Evolution of Galaxy Structure Over Cosmic Time. Annual Review of Astronomy and Astrophysics, 52 (2014), 291-337.
  • 2
    C.J. Conselice. The relationship between stellar light distributions of galaxies and their formation histories. The Astrophysical Journal Supplement Series, 147(1) (2003), 1.
  • 3
    B. Efron. The jackknife, the bootstrap and other resampling plans. 38 (1982), SIAM.
  • 4
    L.G. Esteves, R. Izbicki & R.B. Stern. Teaching decision theory proof strategies using a crowdsourcing problem. Submetido para American Statistician, (2016).
  • 5
    D. Fraix-Burnet, M. Thuillard & A.K. Chattopadhyay. Multivariate Approaches to Classification in Extragalactic Astronomy. In: Frontiers in Astronomy and Space Sciences, 2 (2015), 3.
  • 6
    P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.
  • 7
    J. Friedman, T. Hastie & R. Tibshirani. The elements of statistical learning. 1 (2001), Springer series in statistics Springer, Berlin.
  • 8
    V.O. Gil, F. Ferrari & L. Emmendorfer. Investigação da aplicação de algoritmos de agrupamento para o problema astrofísico de classificação de galáxias. In: Revista Brasileira de Computação Aplicada, 7(2) (2015), 52-61.
  • 9
    E.P. Hubble. Extragalactic nebulae. In: The Astrophysical Journal, 64 (1926).
  • 10
    R. Izbicki. Machine Learning sob a ótica estatística, (2016), rizbicki.wordpress.com/teaching/
    » rizbicki.wordpress.com/teaching/
  • 11
    R. Izbicki & R.B. Stern. Learning with many experts: model selection and sparsity. Statistical Analysis and Data Mining, 6(6) (2013), 565-577.
  • 12
    G. James, D. Witten, T. Hastie & R. Tibshirani. An introduction to statistical learning. Springer (2013).
  • 13
    A.M. Koekemoer, S.M. Faber, H.C. Ferguson, N.A. Grogin, D.D. Kocevski, D.C. Koo, K. Lai, J.M. Lotz, R.A. Lucas & E.J. McGrath et al. CANDELS: The Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey - The Hubble Space Telescope Observations, Imaging Data Products, and Mosaics. The Astrophysical Journal Supplement Series, 197(2) (2011), 36.
  • 14
    S. Kotsiantis, D. Kanellopoulos & P. Pintelas. Handling imbalanced datasets: A review. GESTS International Transactions on Computer Science and Engineering, 30(1) (2006), 25-36.
  • 15
    J.M. Lotz, J. Primack & P. Madau. A new nonparametric approach to galaxy morphological classification. The Astronomical Journal, 128(1) (2004), 163.
  • 16
    K. Małek, A. Solarz, A. Pollo, A. Fritz, B. Garilli, M. Scodeggio, A. Iovino, B.R. Granett, U. Abbas & C. Adami et al. The VIMOS Public Extragalactic Redshift Survey (VIPERS) - A support vector machine classification of galaxies, stars, and AGNs. Astronomy & Astrophysics, 557 (2013), A16.
  • 17
    M.A. Peth, J.M. Lotz, P.E. Freeman, C. McPartland, S.A. Mortazavi & G.F. Snyder et al. Beyond spheroids and discs: classifications of CANDELS galaxy structure at 1.4 < z < 2 via principal component analysis. Monthly Notices of the Royal Astronomical Society, 458(1) (2016), 963-987.
  • 18
    M. Pović, J.A.L. Aguerri, I. Márquez, J. Masegosa, C. Husillos, A. Molino, D. Cristóbal-Hornillos, J. Perea, N. Benítez & A. del Olmo et al. The ALHAMBRA survey: reliable morphological catalogue of 22 051 early-and late-type galaxies. Monthly Notices of the Royal Astronomical Society, 435(4) (2013), 3444-3461.
  • 19
    R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing, (2016), https://www.R-project.org/
    » https://www.R-project.org/
  • 20
    Y. Sun, A.K.C. Wong & M.S. Kamel. Classification of imbalanced data: A review. International Journal of Pattern Recognition and Artificial Intelligence, 23(04) (2009), 687-719.
  • 21
    S. Visa & A. Ralescu. Issues in mining imbalanced data sets-a review paper. Proceedings of the sixteen midwest artificial intelligence and cognitive science conference, 2005 (2005), 67-73.
  • 22
    L. Wasserman. All of nonparametric statistics. Springer Science & Business Media, (2006).
  • 23
    X. Zhu. Semi-supervised learning. Encyclopedia of machine learning. Springer, (2011), 892-897.
  • Este trabalho foi parcialmente financiado pela Fundação de Amparo á Pesquisa do Estado de São Paulo (2014/25302-2) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (200959/2010-7).
  • 1
    As três categorias não são mutuamente exclusivas. Por exemplo, uma galáxia pode ser merger e não regular simultaneamente. Assim, o problema não pode ser trivialmente abordado sob uma ótica trinomial. Salientamos, também, que a ordem de solução dos problemas não influencia os resultados.
  • 2
    Isto é , é uma medida numérica de quão homogêneas são as categorias das observações referentes àquela folha.
  • 3
    Isto é, 61.8% das galáxias merger do conjunto de teste foram classificadas como merger.
  • 4
    Aqui, “ao redor” é entendido como o quadrado de oito píxeis de altura e oito de largura centrado na moda.

A APÊNDICE - ESTATÍSTICAS USADAS PARA A CLASSIFICAÇÃO

Neste apêndice, descrevemos brevemente as estatísticas usadas para fazer a classificação automática. Mais detalhes podem ser encontrado em 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.. Denotamos por fi, j o valor do píxel (i, j) em uma dada imagem f em tons de cinza.

Estatística Multimode (M). Seja ql um quantil de intensidade. Por exemplo, q 0,8 denota um valor de intensidade tal que 80 por cento das intensidades dos píxeis dentro do mapa de segmentação são menores que esse valor. Inicialmente, com a finalidade de definir a estatística M, para um dado valor de l, considere uma nova imagem definida da seguinte maneira:

Seja Al,m o número de píxeis em cada componente desta imagem, e seja

em que Al ,(1) é o maior grupo de píxeis adjacentes para o quantil l e Al ,(2) é o segundo maior grupo de píxeis adjacentes. Essa estatística é utilizada para detectar a presença de dois núcleos no mapa de segmentação. Quando Al ,(2) / Al ,(1) tende a 1, há presença de dois núcleos e, quando essa quantidade tende a 0, há a ausência. Como essa razão é sensível a ruídos, a multiplicamos por Al ,(2), que tende a 0 caso o segundo maior grupo seja manifestação de ruído 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295.. A estatística M é dada pelo máximo valor de Rl:

Estatística Intensidade (I). Inicialmente suavisa-se a imagem por meio de um kernel gaussiano bivariado simétrico 2222 L. Wasserman. All of nonparametric statistics. Springer Science & Business Media, (2006).. Depois encontram-se os máximos locais utilizando o algoritmo mean shift (Figura 8).

Figura 8:
Exemplo do tratamento da imagem, por agrupamento de píxeis, de uma galáxia merger para que seja possível computar a estatística I. As modas são encontradas pelo algoritmo mean shift.

A estatística I é então definida como

em que I (1) é a soma das intensidades dos píxeis ao redor de uma das modas e I (2) é a soma das intensidades dos píxeis ao redor da outra moda4 4 Aqui, “ao redor” é entendido como o quadrado de oito píxeis de altura e oito de largura centrado na moda. , com I (1) > I (2).

Estatística Deviation (D). Seja (xcen, ycen ) o centro de massa de uma imagem. A estatística D é definida como:

em que (xI (1) , yI (1)) é o píxel onde a moda associada a I (1), definido anteriormente, se encontra.

Estatística A. A estatística A consiste na soma da diferença absoluta entre os píxeis da imagem original e da imagem rotacionada em 180°.

Estatística Concentração (C). A estatística C é definida como:

em que r 80 e r 20 são as aberturas circulares contendo 80% e 20% do fluxo total, respectivamente. A ideia é que se o raio da abertura que contém 80% for muito maior do que o raio que contém 20%, a razão r 80/ r 20 será grande e isso é um indicativo de que há baixa concentração de luz. Por outro lado, se existe grande concentração de luz, os raios estarão muito próximos e a razão r 80/ r 20 será próxima de 1, resultando em uma estatística C pequena.

Estatística (S). A estatística S é definida como

em que si, j é a imagem suavizada e BS é a suavidade média de fundo 1515 J.M. Lotz, J. Primack & P. Madau. A new nonparametric approach to galaxy morphological classification. The Astronomical Journal, 128(1) (2004), 163..

Estatística Gini. Seja f ( i ) , com i = 1, ... , n, os fluxos ordenados dos píxeis, em que n é o número de píxeis na imagem. A estatística Gini é definida em 66 P.E. Freeman, R. Izbicki, A.B. Lee, J.A. Newman, C.J. Conselice, A.M. Koekemoer, J.M. Lotz & M. Mozena. New image statistics for detecting disturbed galaxy morphologies at high redshift. Monthly Notices of the Royal Astronomical Society, 434(1) (2013), 282-295. como:

sendo f(i). Para superfícies com luz pouco concentrada, essa estatística tende a zero e quando existe muita concentraçã de luz, a estatística tende a 1. a média de

Estatística Momento de Luz (m20). A estatística m20 é uma medida de quão difusa a luz está na imagem e é definida como:

em que i20% é o valor de i para que ∑ij =1 f ( j ) = 0.2∑nj =1 f ( j ) e mask é a imagem original na qual se coloca um filtro para eliminar ru´ıdo.

Datas de Publicação

  • Publicação nesta coleção
    Jan-Apr 2017

Histórico

  • Recebido
    16 Ago 2016
  • Aceito
    31 Mar 2017
Sociedade Brasileira de Matemática Aplicada e Computacional Rua Maestro João Seppe, nº. 900, 16º. andar - Sala 163 , 13561-120 São Carlos - SP, Tel. / Fax: (55 16) 3412-9752 - São Carlos - SP - Brazil
E-mail: sbmac@sbmac.org.br