Kaggle

[Kaggle Featured, NeurIPS - Ariel Data Challenge 2024] 시작하기

Alex Han 2024. 8. 20. 18:18
반응형

https://www.kaggle.com/competitions/ariel-data-challenge-2024/overview

 

NeurIPS - Ariel Data Challenge 2024 | Kaggle

 

www.kaggle.com

 

 

 

들어가며


외계 행성 대기 분석의 중요성

외계 행성(태양계 밖의 행성)의 발견은 우주의 이해를 크게 변화시켰습니다. 현재까지 5,600개 이상의 외계 행성이 발견되었습니다. 이러한 행성을 탐지하는 것만으로는 충분하지 않고, 이들의 대기를 연구하여 그 성질을 파악해야 합니다. 2029년에 예정된 유럽우주국(ESA)의 아리엘(Ariel) 미션은 우리 은하 이웃에 있는 1,000개의 외계 행성을 포괄적으로 연구하는 최초의 미션이 될 것입니다.

 

 

대기 관측의 어려움

외계 행성의 대기를 관측하는 것은 현대 천문학에서 가장 어려운 데이터 분석 문제 중 하나입니다. 외계 행성이 항성 앞을 지나갈 때, 별빛의 극히 일부(백만 분의 50~200)가 행성의 대기층을 통과하며 대기의 화학 성분, 구름, 바람과 상호작용합니다. 이러한 미약한 신호는 대략 50ppm(초지구형 행성)에서 200ppm(목성형 행성) 범위에 있으며, 관측 장비의 노이즈에 의해 자주 손상됩니다.

 

 

'지터 노이즈' 문제

우주에서 우주선의 미세한 진동으로 인한 '지터 노이즈'는 특히 큰 문제가 됩니다. 이 노이즈는 우주선이 저중력 환경에서 안정성을 유지하기 위해 회전 모멘텀 휠에 의존하기 때문에 발생합니다. 이는 마치 흔들리는 손으로 장노출 사진을 찍는 것과 비슷한데, 상업 사진에서 발생하는 블러(흐림 현상)보다 훨씬 큰 문제를 야기합니다. 지터 노이즈로 인한 광도 변화는 약 200ppm 정도로, 탐지하려는 행성 신호와 비교할 때 매우 큰 영향을 미칩니다. 이는 지구형 및 초지구형 행성의 신호를 저하시킬 수 있으며, 이러한 문제들 때문에 아리엘 페이로드 설계에서 엄격한 기술 요구 사항을 충족하는 것이 어려워집니다.

 

 

 

대회 소개


 

대회 과제

이 대회의 과제는 관측된 각 외계 행성의 대기 스펙트럼을 추출하고, 이 스펙트럼의 불확실성을 추정하는 것입니다. 이를 위해 참가자들은 외계 행성이 항성을 가리면서 발생하는 여러 시간 동안의 연속적인 2D 스펙트럼 초점면 이미지를 디트렌딩해야 합니다. 이 디트렌딩 과정은 원시 관측 데이터를 과학적으로 분석하기 전에 대기 스펙트럼과 관련된 오차 막대를 추출하는 데 필수적인 초기 단계입니다.

 

 

접근 방법

이 문제는 멀티모달 지도 학습 문제입니다. 참가자들은 이미지, 시간 또는 스펙트럼 도메인에서 지터 노이즈를 디트렌딩할 수 있으며, 이를 조합하여 사용할 수 있습니다. 각 도메인은 서로 다른 이점을 가지고 있습니다. 여기서는 두 가지 일반적인 학습 전략을 설명합니다.

  1. 접근법 1: 전체 3D 데이터 큐브에서 직접 학습하고 해당 스펙트럼을 추출합니다. 이 접근법은 풍부한 정보 콘텐츠를 활용할 수 있지만, 많은 컴퓨팅 리소스를 요구합니다. (이미지 → 스펙트럼 도메인 참조)
  2. 접근법 2: 각 파장에 대해 픽셀 y축을 따라 플럭스를 합산하여 데이터의 무게를 줄이고, 이를 통해 (시간, 파장) 크기의 2D 이미지를 생성한 후 파장 간 트랜짓 깊이 변화를 강화합니다.

그러나 이러한 접근법들 중 어느 것도 지터 시간 시리즈 노이즈를 제거하는 데 최적화되어 있지 않으며, 승리하는 솔루션은 세 가지 도메인의 정보를 모두 포함할 것으로 예상됩니다.

 

이미지 도메인 (이미지의 가장 왼쪽 부분)

  • 공간 vs 스펙트럼 데이터: 이 부분은 3D 데이터 큐브를 나타내며, 이 큐브는 공간(검출기에서의 위치), 스펙트럼(파장), 시간 축으로 구성됩니다. 노란색 박스는 분석할 특정 파장 또는 공간 영역을 강조하고 있습니다.
  • 데이터 추출: 이 3D 데이터를 활용해 유용한 스펙트럼 정보를 추출하는 것이 목표입니다.

시간 도메인 (이미지의 중간 부분)

  • 플럭스 vs 시간: 이미지 도메인에서 추출한 데이터는 행성이 항성을 통과할 때의 플럭스(밝기)가 시간에 따라 어떻게 변하는지를 보여주는 라이트 커브로 나타납니다.
  • 트랜짓 서명(Transit Signature): 외계 행성이 항성 앞을 지날 때 라이트 커브에서 밝기가 감소하는 현상이 나타나며, 이 데이터를 분석해 행성 대기에 대한 정보를 얻을 수 있습니다.

스펙트럼 도메인 (이미지의 가장 오른쪽 부분)

  • Rp/Rs vs 파장: 마지막 출력은 파장에 따른 행성 반지름 대 항성 반지름 비율(Rp/Rs)을 나타내는 스펙트럼 그래프입니다. 이 비율은 행성 대기에서 빛의 흡수와 산란에 따라 파장에 따라 달라지며, 이를 통해 대기의 구성 요소와 특성을 알 수 있습니다.

 

 

평가

이 대회는 예측된 스펙트럼(μ_user)과 해당 불확실성(σ_user)을 다양한 파장에 대해 실제 스펙트럼(y)과 비교하여 평가합니다. Gaussian Log-likelihood (GLL) 함수를 사용하여 평가가 이루어지며, 이 값은 전체 파장 및 테스트 세트를 통해 합산되어 최종 GLL 값(L)을 생성합니다. 최종 GLL 값은 다음 변환 함수를 사용하여 점수로 변환됩니다.

이때, L_ideal은 제출된 결과가 실제 값과 완벽하게 일치하고, 불확실성이 10ppm인 이상적인 경우를 나타내며, L_ref는 훈련 데이터셋의 평균과 분산을 사용하여 모든 인스턴스에 대해 예측된 경우를 나타냅니다.

이 점수는 [0, 1] 범위의 부동 소수점 값을 반환하며, 점수가 높을수록 성능이 좋은 모델을 의미합니다. 0 이하의 점수는 0으로 처리됩니다.

 

 

제출 파일

참가자들은 각 행성 ID에 대해 평균 및 불확실성을 예측해야 합니다. 예제 제출 파일이 데이터 파일에 포함되어 있습니다. 제출 파일의 각 행은 567개의 열을 포함해야 하며, 왼쪽에서 첫 번째 열은 행성 ID, 다음 283개의 열은 스펙트럼, 나머지 열은 불확실성을 포함해야 합니다.

반응형