衛星データ解析の全体探索
何を計画し、何をやり、何が見えたか
2026年3月 / 松島 宏佑
Space Tech Accelerator 共有資料
背景と問題意識
衛星データ解析の全体像を理解したいと思いました。
衛星解析は、データの取得・加工・解析・可視化まで多くのステップがあり、使うセンサーやモデル、前処理の方法によって結果が大きく変わります。パームオイルなど特定テーマに絞る前に、まず全体像を身体感覚として掴みたい 。
特に知りたかったのは、AIがある時代に、これらがどの程度民主化されるのか、されないのか ということです。
AIエージェントの能力が急速に上がっている。衛星データは無料で大量に手に入る。この2つが交差したとき、衛星解析はどこまで「誰でもできるもの」になるのか。それとも、専門家でなければ触れない領域が依然として残るのか。
座学ではなく、実際にデータを動かして一つずつ確認していく方法で、1週間探索しました。
学習計画
設計原則
原則 内容
変数を一度に変えない 各日で「固定する変数」と「動かす変数」を分け、差が何に起因するかを明確にする
2軸で広げる 縦軸: データにどこまで遡るか / 横軸: 解析をどこまで深めるか
5日間の計画
Day テーマ 固定 動かす 時間
1 光学画像分類(EuroSAT) データ 解析手法 L1→L2→L3 5.5h
2 SAR洪水検出(Sen1Floods11) 解析の型 センサー(光学→SAR) 6.5h
3 データパイプライン 解析(L1固定) データ側(前処理・指標・センサー種) 5-8h
4 AI手法総当たり データ(EuroSAT) モデル(古典ML→DL→基盤モデル) 8.5h
5 統合・バッファ — 未消化 + 時系列合成 9h
実行体制
役割 担当
問いを立てる / 結果を判断する 人間(松島)
カリキュラム設計 人間 + Claude
コード生成・実行・可視化・レポート AIエージェント(Codex)
全37タスク、合計33-38時間。 Google Colab(無料枠 T4 GPU)で実行。人間はコードを一行も書いていない。
到達目標チェックリスト
到達状態 Day
✅ L1→L2→L3の精度差を数値で説明できる 1
✅ 光学とSARの違いを説明し、使い分けられる 2
✅ 前処理の影響を「ありなし」の比較画像で説明できる 2-3
✅ STAC APIでデータを検索・取得できる 3
✅ 20種の指数を用途別に使い分けられる 3
✅ 各モデルの特徴と精度を一通り体験し、違いを説明できる 4
✅ 教師データの形式と作成コストを理解している 4
✅ 解像度・観測条件が精度にどう影響するか体感している 4-5
⬜ P1〜P8の全パイプラインを1本通せる 5
やったこと一覧
# タスク名 主な学び
Day 1: 光学画像分類(5タスク)
1-1 NDVI閾値分類(L1) 精度64.4%。
1-2 ResNet50 事前学習モデル推論(L2) 精度95.7%(+31.3pt)。
1-3 ResNet50 ファインチューニング(L3) 精度98.5%(+2.8pt)。
1-4 L1 / L2 / L3 精度比較 ★ 最大ジャンプはL1→L2(+31pt)。
1-5 全モデル比較(8手法) ViT=ResNet50 FT=98.5%(同率首位)。
Day 2: SAR洪水検出・InSAR(19タスク)
2-1 SAR閾値法による洪水検出(L1) F1=0.396。
2-2 事前学習モデル洪水検出(L2) F1=0.167。
2-3 U-Net学習による洪水検出(L3) F1=0.240。
2-4 SAR洪水検出 L1/L2/L3 比較 ★ Day1と真逆: L1(0.396) > L3(0.240) > L2(0.167)。
2-5 NDVI 時系列解析 農地・森林・都市の年間NDVI変動を季節分解。
2-6 SAR 変化検出(3手法) 差分法・比率法・CVAの3手法でPre/Post変化を検出。
2a-1 Sentinel-1 データ取得と理解 asf_searchによるSentinel-1データ検索。
2a-2 HyP3 RTC前処理パイプライン HyP3 RTCによるSAR前処理(地形補正等)。
2a-3 JRC恒常水域マスク JRC Global Surface Waterで恒常水域と洪水域を分離。
2a-4 大規模SAR処理 タイリング・並列処理・モザイク化による広域SAR解析パイプライン。
2b-1 SAR可視化・スペックルフィルタ比較 リニア vs dBスケール、スペックルフィルタ5種の効果比較。
2b-2 Otsu閾値+水域マスク Otsu自動閾値・固定dB閾値最適化・恒常水域マスクの3手法を比較。
2b-3 偏波活用+Pre/Post変化検出 VV/VH偏波情報を活用した変化検出。
2b-4 SAR 3ch U-Net洪水検出 VV/VH/VV-VHの3チャンネル入力U-Net。
2b-5 全手法比較+判断フローチャート ★ 5手法を統一条件で比較。
2c-1 InSAR基礎 SLC・干渉縞・コヒーレンスの概念理解。
2c-2 コヒーレンス変化検出 Pre/Postコヒーレンス差分で地震被害域を推定。
2c-3 DInSAR変位解析 Unwrapped PhaseからLOS変位マップを生成。
2c-4 SAR統合まとめ ★ Day2全13タスクを「3つの物理量」(後方散乱/コヒーレンス/位相差)で統合整理。
Day 3: データパイプライン(8タスク)
3-0 前処理比較実験 ★ 大気補正なしだとNDVIが254.7%過小評価。
3-1 スペクトル指数20種 ★ 同じ画像からバンドの組み合わせを変えるだけで20通りの情報。
3-2 バンド合成・雲マスク・大気補正 10種バンド合成、3種雲マスク、L1C vs L2A大気補正を比較。
3-3 DEM地形解析 SRTM 30mで関東平野の地形解析。
3-4 水域・海洋解析 琵琶湖の水域抽出、東京湾のクロロフィル推定、Sentinel-3 SSTとの比較。
3-5 大気解析(TROPOMI 7プロダクト)★ ★ 地表ではなく大気の化学成分を測定する全く別種の衛星データ。
3-6 熱赤外・ヒートアイランド Landsat TIRSで東京の地表面温度を実測。
3-7 都市拡大検出+夜間光 2018→2024年のNDBI差分で東京の都市拡大を検出。
Day 4: AI手法比較(8タスク)
4-1 ファウンデーションモデル4種比較 ★ ResNet50(96.0%) ≈ DINOv2(95.0%) >> CLIP(34.6%)。
4-2 セグメンテーション3手法比較 U-Net mIoU 28.1%。
4-3 物体検出 DeepForest 55本検出 vs YOLOv8 0検出。
4-4 古典的機械学習6手法比較 RF/SVM/k-NN等をPCA圧縮特徴で比較。
4-4b ピクセルレベル古典ML ピクセル単位の13バンドスペクトル分類。
4-5 深層学習4手法比較 ViT 99.1% > ViT+LoRA 98.8% > ResNet FT 98.4% > Scratch 91.…
4-6 データ効率性実験 ★ 教師データ0枚(35%)→5枚(75%,+40pt!)→100枚(94%)→全量(98%)。
4-7 解像度感度実験 ★ 分類は30mで95%維持、物体検出は0.5mで信頼度半減。
★ = 特に重要な発見があったタスク。+ ドローン×衛星統合リサーチ(6ドキュメント、参考文献100件超)
プロセスマップ: 衛星解析の全体フロー
全工程を手を動かして通した結果、衛星解析の統一プロセスフローとして整理しました。
PRE-WORKFLOW(ワークフロー前段階)
0a. ユースケース定義(モニタリング / マッピング / 単発分析)
0b. アーカイブ存在確認(STAC照会)
0c. タスキング判断(アーカイブ利用 or 新規撮影)
0d. ライセンス・倫理確認
① 目的定義 (要件仕様の正式化)
↓
② センサー選定 ← 最初の大きな分岐 (データ融合計画を含む)
↓
③ データ取得
3a. データ探索(STAC API)
3b. アーカイブDL or 商用タスキング
3c. データ品質初期確認
↓
[ARDか?] → Yes → ④の大部分をスキップ → ⑤へ
→ No → ④前処理をフルに実施
↓
④ 前処理
4a. 幾何補正(オルソ化、DEM選択、リサンプリング)
4b. 放射補正(DN→放射輝度→TOA反射率)
4c. 大気補正(BOA反射率)
4d. 雲/影マスク
4e. BRDF正規化(多時期合成の場合)
4f. クロスセンサーハーモナイズ(Landsat+Sentinel混用の場合)
4g. SAR固有: 軌道補正→熱雑音→スペックルフィルタ→RTC
4h. 時系列補間・ギャップフィル
4i. マルチセンサー融合(SAR+光学等)
4j. 時系列合成(L3: 季節合成・年合成)
↓
⑤ 解析 ← 最大の分岐点
5a. 特徴量エンジニアリング(スペクトル指数、時間メトリクス)
5b. ラベル収集・アノテーション
5c. チップ生成 + 空間的 train/val/test 分割
5d. 解析実行(→ 次スライドで詳細)
5e. タイルスティッチング(推論結果の統合)
↓
⑥ 後処理・検証
6a. ノイズ除去(モルフォロジー、最小面積フィルタ)
6b. ラスタ→ベクタ変換
6c. ピクセル別品質フラグ・不確実性レイヤー
6d. 精度評価(混同行列、面積バイアス補正)
6e. フィードバックループ: 精度不足 → ⑤に戻る
↓
⑦ 地図化・重ね合わせ (既存地図/行政区画/インフラとオーバーレイ)
↓
⑧ Web配信 (タイルサーバー / ダッシュボード / API / アラート)
↓
⑨ 運用モニタリング(定期ワークフローの場合)
9a. レイテンシ・SLA監視
9b. 自動変化アラート
9c. データ分布ドリフト検知
9d. モデル精度監視・再学習トリガー
重要な事実: 解析(⑤)は全体の一部に過ぎず、実際の作業時間の6-7割は①〜④のデータ側が占める。
センサーの全体像
センサー種別 代表衛星 バンド 解像度 回帰日 コスト 得意なこと
光学 Sentinel-2 13 10-60m 5日 無料 植生、土地被覆、水域、都市、農業
光学+熱赤外 Landsat 8/9 11 30m(熱100m) 16日 無料 温度測定、長期変化(1972年〜)
SAR (C-band) Sentinel-1 2偏波 5-20m 6日 無料 雲貫通、洪水、地盤変動
SAR (L-band) ALOS-2 4偏波 10-25m 14日 有料* 森林透過、バイオマス、水田
大気 Sentinel-5P — 3.5-7km 1日 無料 NO2、CO、メタン等
夜間光 VIIRS — 375-750m 1日 無料 経済活動、電化率、漁船
高解像度商用 Planet/Maxar 4-8 0.3-5m 1-数日 高額 個別建物、車両、樹冠個体
見たいもの → 使うセンサー・指数 対応表
見たいもの 使うバンド/指数 最適センサー 最低解像度
植生の健康度 NDVI (NIR, Red) Sentinel-2 10m
植生ストレス・病害 NDRE (Red Edge) Sentinel-2 20m
水域の境界 NDWI/MNDWI Sentinel-2 10-20m
都市・不透水面 NDBI (SWIR, NIR) Sentinel-2/Landsat 10-30m
火災跡 NBR/dNBR Sentinel-2/Landsat 20-30m
地表面温度 TIR (B10/B11) Landsat 8/9 100m
洪水域 VV後方散乱低下 Sentinel-1 10-20m
地盤沈下・変動 InSAR位相差 Sentinel-1 SLC 5m
森林バイオマス L-band後方散乱 ALOS-2 10-25m
大気汚染(NO2等) UV-SWIR吸収 Sentinel-5P 3.5-7km
個々の建物・樹冠 RGB高解像度 Maxar/Planet <1m
5段階の完全パイプライン(Day 2で作成)
SAR: 目的別の手法選択ツリー
プロセスマップ: 解析の分岐判断フロー
⑤解析 は最大の分岐点。「何を使うか」の判断フローを整理しました。
Q1: その問題の指数(NDVI等)は存在するか?
→ Yes → L1で試す → 精度十分? → Yes → 完了
→ No → Q2へ
Q2: 学習済みモデルは存在するか?
→ Yes → L2 そのまま推論 → 精度十分? → Yes → 完了
→ No → Q3へ
→ No → Q4へ
Q3: 少量のGTで精度は回復するか?
→ 5-50枚のGTでFTしてみる → 精度十分? → Yes → 完了(L2.5 )
→ No → Q4へ
Q4: GT収集のコスト/期間は許容できるか?
→ Yes → GT収集 → L3 フルトレーニング → 学習・反復 → 完了
→ No → 問題設定を見直す or 商用サービスを検討
解析手法の全体像
レベル 手法 条件 精度目安 自動化 専門家
L1: 指数・閾値 NDVI, NDWI, dB閾値等 物理量に直結する指数が存在 60-70% ○ 完全可能 不要
L2: 既存モデル pretrained ResNet, Prithvi等 学習済みモデルが存在 AND 条件が近い 80-96% ○ 完全可能 不要
L2.5: ドメイン適応 Few-shot FT, 転移学習 モデルはあるが地域・条件が異なる 85-95% △ 半自動 判断に必要
L3: フルトレーニング U-Net, ViT, 古典ML学習 対応するモデルが存在しない 90-99% △ 学習は自動 全工程で必要
ゼロショット RemoteCLIP, SAM 「まず試す」探索用 30-50% ○ 完全可能 不要
★ L2.5が実務で最頻出。 例: 欧州で学習した土地被覆モデルを東南アジアに適用→「水田」クラスがない、「パーム林」が「森林」に誤分類される。
教師データ(GT)の形式と作成コスト
GTの形式 用途 コスト
画像レベルラベル 分類(この画像は「森林」) 最も安い
ピクセルレベルラベル セグメンテーション(各ピクセルを塗り分け) 高コスト
バウンディングボックス 物体検出(この範囲に「建物」) 中コスト
GPS+現地調査 検証(実際に行って確認) 最も高コスト
プロセスマップ: 自動化可能性マップ
8ステップの各工程で、どこまで自動化でき、どこに人間が必要かを整理しました。
ステップ 自動化 人間が必要な部分
① 目的定義 ✕ 人間が決める(ビジネス要件)
② センサー選定 △ 推薦は可能だが最終判断は人間
③ データ取得 ○ —
④ 前処理 ○ —
⑤ 解析(L1/L2) ○ —
⑤ 解析(L2.5) △ 精度判断、モデル選定
⑤ 解析(L3) △ GT収集・設計、モデル選定
⑥ 後処理・検証 ○ —
⑦ 地図化 △ 何と重ねるかは人間が決める
⑧ Web配信 ○ テンプレート化すれば完全自動
衛星解析でカバーできる領域の全体マップ
領域 見えるもの 主なセンサー 代表的な手法
植生・農業 活性度、作物種類、収穫予測、病害 Sentinel-2, MODIS NDVI, 時系列, 分類
森林 森林減少、バイオマス、樹種、樹冠高 Landsat, ALOS-2, GEDI 変化検出, SAR, LiDAR
水域・海洋 水体範囲、水質、海岸線変動 Sentinel-2/3 NDWI, 水色アルゴリズム
都市 都市拡大、建物、不透水面、夜間光 Sentinel-2, VIIRS NDBI, 物体検出
災害 洪水、地震被害、土砂崩れ、干ばつ Sentinel-1/2 SAR洪水, 変化検出
大気 NO2, CO, メタン, エアロゾル Sentinel-5P カラム量マッピング
地形 標高、傾斜、流域、浸水リスク SRTM DEM DEM解析
温度 地表面温度、ヒートアイランド Landsat熱赤外 LST物理モデル
5日間の実験とプロセスマップの対応
Day 体験した範囲 プロセスフローの対応箇所
1 光学分類 L1→L2→L3 ②光学 → ④大気補正なし → ⑤L1/L2/L3比較
2 SAR洪水検出 L1→L2→L3 ②SAR → ④スペックルフィルタ → ⑤L1/L2/L3比較
3 データパイプライン全体 ③STAC API → ④大気補正・雲マスク → ⑤L1(指数20種)
4 モデル総当たり比較 ⑤L2(基盤モデル4種) + L3(古典ML6種/DL4種) + 解像度感度
主な発見 ①
転移学習の威力と「逆転現象」
光学(Day 1): 転移学習が圧勝
レベル 手法 精度
L1: 数式 NDVI閾値 64.4%
L2: 転移学習 ResNet50 95.7%(+31pt )
L3: FT ResNet50 FT 98.5%(+2.8pt)
SAR(Day 2): 物理原理が勝つ
レベル 手法 F1
L1: 閾値 後方散乱 0.396(1位)
L2: 転移学習 ResNet-UNet 0.167(3位)
L3: FT U-Net学習 0.240(2位)
なぜ逆転するか: ImageNetの知識(テクスチャ・形状)はSAR(後方散乱強度)に転用できない。「水面は鏡→マイクロ波が返ってこない→暗い=洪水」という物理原理のほうが強い。
教訓: AIの民主化は「既知のドメイン」には強力だが、ドメインが変わると汎用モデルは機能しない。
労力 vs 精度のトレードオフ
SAR同一画像での検出結果
主な発見 ②
前処理がすべてを決める
大気補正なしだとNDVIが254.7%ズレる
L2A(補正済み)vs TOA(未補正)でNDVIの絶対値が信頼不可に。相関r=0.96でパターンは似るが、閾値分類は崩壊する。
→ どんな高精度モデルを使っても、前処理を間違えると結果が崩壊する。
1画像から20通りの情報が取れる
スペクトル指標20種(植生/水域/都市/災害/土壌/農業/合成)を同一画像から計算。実質5-6次元に圧縮可能。DL時代でも探索・説明性・業界標準として指標は残る。
5種のセンサーで見える世界が全く違う
DEM: MLなしで傾斜・流域・浸水シミュレーション — 計算幾何学の世界
大気(TROPOMI): 1ピクセル(7km) = Sentinel-2(10m)の面積50万倍。地表が見えない別世界
熱赤外(Landsat): 地表面温度を実測。「温度」と「54年の過去」はLandsat一択
都市: 6年間のNDBI差分で東京の都市拡大+8.3%(108.5km²)を検出
1画像 → 20の「見方」
大気7プロダクト — 地表が全く見えない別世界
主な発見 ③
データ効率とドメインギャップ
たった5枚で+40ポイント
教師データ量 精度 改善幅
0枚(zero-shot) 35.4% —
5枚/クラス 75.2% +39.8pt
全量(2,700枚) 98.0% +22.8pt
「良い表現(事前学習)+ 少量データ」 > 「悪い表現 + 大量データ」。
ドメインギャップの決定的実証
YOLOv8(COCO学習): 航空写真で0検出 。COCOの「建物」と上空の「屋根」は別物
DeepForest(航空写真特化): 同じ画像で55本 の樹木を検出
やりたいことで必要な解像度が2桁違う
分類は30mで95%維持(Landsatで十分)。物体検出は0.5mで信頼度半減(ドローンが必要)。
教師データ量 vs 精度
分類精度: 30mでも95%維持
主な発見 ④
何が民主化され、何がされないか(3層構造)
層 内容 具体例
第1層 完全自動化 AIエージェントに丸投げ
データ取得(STAC API)、定型前処理(L2A)、スペクトル指標20種、事前学習モデル適用、DEM計算、レポート・可視化
第2層 AI+人間協働 AIが実装、人間が判断
閾値の最適化(-15dBは妥当か?)、モデル適合性判断、前処理パラメータ選択、結果の解釈(F1=0.4は許容か?)
第3層 専門家必須 AIでは代替困難
解析の目的定義、ドメインギャップの事前評価、物理原理に基づく妥当性検証、教師データの品質管理
実感としての結論: 80%の作業は自動化可能。残り20%が結果の質を決定的に左右する。
AIエージェント時代の衛星解析
消滅する専門性
コードを書く能力(rasterioでNDVI計算等)
データ取得・前処理のルーチンワーク
既存モデルの適用スクリプト
残る / 高まる専門性
問題定義 — 何を見たいか決める力
ドメイン適応 — 欧州モデルを東南アジアで使う調整
妥当性保証 — この精度で実務に耐えるか
AIオペレーション — 指示→確認→FBの高速サイクル
「コードを書く専門家」→「問いを設計し、妥当性を保証する専門家」への不可逆なシフト
学習方法としての振り返り
「変数を一度に変えない」設計が効いた
Day 固定 動かす 見えたもの
1 データ 手法 手法の効果が明確に見える
2 手法の型 センサー ドメインの違いが浮き彫りに
3 手法 データ側 前処理の重要性を実感
4 データ モデル 手法間の差が数値で比較可能
AIエージェント駆動の学習の特性
特性 内容
速い 37タスクを4日間で実行。従来なら数ヶ月かかる量
網羅的 全手法を総当たりで試せる。「とりあえず全部やる」が現実的に
再現可能 全コードが残っている。2周目以降で即座に再利用
限界 結果の妥当性判断は人間 / 「何が足りないか」のメタ認知はAI不可 / 専門家FBなしの盲点
議論したいこと
素人の初期仮説を1週間で形にしました。間違っているところも多いと思いますが、フィードバックをもらえたらすぐに修正して次にいけます。
# 問い
1 SARでドメイン知識がDLに勝つ — 実務でもそうですか?
2 5枚で+40ポイント — 教師データ戦略、実務ではどう考えますか?
3 3層構造(自動化/協働/専門家) — この整理は実感に合いますか?
4 プロセスマップ — 抜けているステップや重要なのに触れていない領域は?
5 この学習方法の有効性 — 素人がAIエージェントで学ぶアプローチの可能性と限界は?
STA が解析をするしないとはまったく別の次元として、AIエージェント時代にどう衛星解析がなっていくのかの仮説を持ちたくて探索しています。
Appendix — 全成果物 Day 1〜4の全タスク、全ビジュアルを収録
Task 2a-2: HyP3 RTC前処理パイプライン
HyP3 RTCによるSAR前処理(地形補正等)。クラウド処理で月8,000クレジット無料。
2a-2 preprocessing pipeline
Task 4-4: 古典的機械学習6手法比較
RF/SVM/k-NN等をPCA圧縮特徴で比較。SVM 93.8%で手作り特徴でも健闘。
4-4 classical ml comparison
4-4 classical ml summary
Task 4-4b: ピクセルレベル古典ML
ピクセル単位の13バンドスペクトル分類。実務に近いアプローチ。
task4 4b classification maps
task4 4b summary
Generated by AGI Cockpit / Claude Code — 2026-03-15
Space Tech Accelerator / 松島 宏佑