【記事更新】私のブックマーク「都市空間の情報処理─データセットの世界動向」


私のブックマーク

都市空間の情報処理─データセットの世界動向

関本 義秀(東京大学空間情報科学研究センター,東京大学デジタル空間社会連携研究機構)

1.は じ め に

 近年,情報処理や人工知能などの分野でも,社会実装の一端として,都市空間全体を対象にした研究・ビジネスをしている人も増えているのではないでしょうか? 巷ではスマートシティ,スーパーシティなどの言葉も出てきていますし,都市のディジタルツインというキーワードも日常的になってきました.特に機械学習・深層学習の進展により,都市のような実世界を自動認識し,大変な労力をかけて行っているさまざまな都市管理を少しずつ自動化による DXを進めていく実践的な取組みも進んできています.
 しかし,都市の構成物は複雑であるため,これらは簡単ではなく,また,行政や実ビジネスで使おうとすると一定以上の精度が求められることも多いため,うまく自動化しきれない処理工程もあったり,分野によってかなり取組みが異なることもあります.いずれにしても,機械学習のためにはさまざまなデータが必要であり,こうしたデータの多くが個別の企業や大学の競争力の源泉である一方で,我々自身が普段オープンなデータセットに助けられて研究・ビジネスなどが行えていることも多々あります.研究やビジネス全体の進展と社会への還元という意味では,それぞれのビジネスモデルの範囲でなるべく積極的にデータセットの共有が進められるべきだと考えています.また, COVID-19や世界の分断などで不安要素が増す中で,日本が世界に貢献できることなども考えていく必要があります.研究者であれば,オリジナリティのあるデータを公開して,国際学会を通じて,データチャレンジのイベントを積極的に開催し,仲間の輪を広げていくことなども一つのアプローチだと思います.
 そこで,本稿では,都市に関する主要な地物に焦点を当て,それぞれの分野で世界的にどのような「都市の教師データセット」が提供されているかを俯瞰し,今後,取り組むべき研究・ビジネスなどを展望します.なお,今回はそういう意味では,データセットに焦点を当てていますので,その他,都市空間の情報処理そのもの基礎的なことは割愛しています.また,本稿の中で(*)のデータセットは何らかの申請・許諾が必要であり,それ以外はオープンな形でダウンロードが可能となっています.ただ,いずれの場合も多くの場合は研究用には使えるものの商業目的の場合は一報を入れることになっているタイプのライセンスが多いので留意してください.

2.土 地 利 用

 まず最初に,土地利用の分野を紹介します.土地利用は都市の開発そのものや農業生産の収穫予測など都市の根幹に関わる部分であるため,この分野は割と古くから航空写真やリモートセンシングによる衛星画像を使って取り組まれています.ここでは,機械学習が普及する以前の 1980~ 90年代から画像のピクセル値によるクラスタリングで土地利用の分類を行う教師なし分類があり,もちろん分析ソフトウェア上で既知の土地利用データを読み込ませて分類する,教師あり分類も徐々に増え,現在のような機械学習につながっているといえます.特に航空写真では見えない可視光以外のセンサデータを搭載している衛星画像は,波長帯に応じた物質の反射特性によりさまざまなことがわかりますが,可視光画像そのものの高解像度化のほうが判別精度そのものに影響することが多いようで,表1のように高解像度化,多クラス化が進んでいます.そういう意味では近年では衛星画像のバリエーションも増え,超解像の技術なども適用し,少数の高解像度画像で学習し,広域の低解像度画像からでもある程度の高精度な土地利用推定を行うような研究もあります.

表1 土地利用に関するデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
UC Merced Land Use Dataset UC Merced 2010 21 classes 100 aerial images for each class, measures 256×256 pixels, the pixel resolution is 1 foot
RSSCN7 Wuhan Univ. 2015 7 classes 2.8 K remote sensing images
SAT-6 airborne datasets Louisiana State Univ. & Nasa 2015 6 classes 405 K image patches each of size 28×28
SIRI-WHU: google Wuhan Univ. 2016 12 classes 200 images for each classes, each image measures 200×200 pixels, with a 2-m spatial resolution
SIRI-WHU: USGS Wuhan Univ. 2016 4 classes The large image measures 10000×9000 pixels, with a 2 ft spatial resolution
RSI-CB Central South Univ. 2017 35 classes 24 K images, 256×256 pixel sizes with 0.3~ 3 m spatial resolutions
Dstl Satellite Imagery Feature Detection(Dstl Satellite Imagery Feature Detection),Kaggle Dstl 2017 10 classes 57 images, 1×1 km, 3/16-band Worldview 3 imagery( 0.3 m-7.5 m spatial resolutions)
DLRSD Wuhan Univ. 2018 21 classes 100 images per class with 256×256 pixels size
LandCoverNet Radiant Earth Foundation 2018 5 classes 1.9 K images, 256×256 pixels in V1.0 spanning 66 tiles of Sentinel-2
DroneDeploy
(https://competitions.codalab.org/competitions/18468)
DroneDeploy 2019 7 classes A number of aerial scenes captured from drones. Each scene has a ground resolution of 10 cm per pixel
Slovenia Land Cover Classification Sinergise 2019 10 classes 940 EOPatches of the size 500×500 pixels at 10 m resolution
SEN12MS TUM 2019 33 classes 180 K patch triplets of corresponding Sentinel-1 dual-pol SAR data, Sentinel-2 multi-spectral images, and MODIS-derived land cover maps
LandCover.ai linuxpo 2020 3 classes 33 orthophotos with 25 cm per pixel resolution(~ 9000×9500 px) , 8 orthophotos with 50 cm per pixel resolution(~ 4200×4700 px)
BDCI 2020(*) BDCI 2020 7 classes 140 K JPG images at a resolution of 2 m/ pixel and a size of 256×256
Gaofen Image Dataset(GID) Wuhan Univ. 2020 5 and 15 classes
(2 versions)
The large-scale classifcation set contains 150 pixel-level annotated GF-2 images, and the fne classifcation set is composed of 30000 multi-scale image patches coupled with 10 pixel-level annotated GF-2 images.
CLRS Central South Univ. 2020 25 classes 15 K remote sensing images, image size is 256×256, The resolution of the images ranges from 0.26 m to 8.85 m
SenseEarth Classify(*) Sense Earth 2020 8 classes with 28 sub classes
(51 different categories in total)
70 K remote sensing images
Multi-View Datasets: AiRound Federal Univ. of Minas Gerais 2020 11 classes 11 K images

3.建   物

 次に,建物についてです.建物は人々の生活やビジネスの拠点となるため,昔から例えば固定資産税の把握のためなどに航空写真撮影で建物異同の判別などを行ってきましたが,最近では高精度な地図作成や三次元化,あるいは空家問題や不動産情報など,高精度な建物データへのニーズが高まっています.その一方で,建物データの表現レベルもいろいろありますが,まずは航空写真や衛星画像から建物の二次元ポリゴン形状が自動抽出できることが一定のマイルストンであり,表2に示すようなさまざまなデータセットがこれまでも公開されてきています.しかしこれもまだ実用に耐え得る精度とは言いづらく,空間的な解像度や対象エリアが異なる教師画像で学習したモデルを他の画像に適用すると,途端に精度が下がってしまうことが多々あります.また,実用的には建物の具体的な属性(例えば,一般建物か事業所かの区分や築年数,あるいは木造・鉄筋などの建物構造)なども併せて推定できるとよりデータとしての価値が上がりますが,それにはより近接の画像(例えば,地上の車載からの撮影画像など)が必要です.
 表2のような二次元情報以外ですと,複数の二次元画像から三次元構造の推定を試みる SfM( Structure from Motion)向けに, Washington Univ.と Microsoft社がノートルダム大聖堂の画像を公開した Photo Tourism Dataset(2006)や, Cornell Univ.が 200シーンの Landmarkの距離画像約 10万枚を公開した MegaDepth(2018)などもあります.また,最近,日本では国土交通省がプラトーという都市の三次元化プロジェクト内で 56都市の都市計画区域内の建物三次元データをG空間情報センター内で 2021年 3月よりデータ公開を始めており,こうしたものも学習のデータとして使えるようになっていく可能性があります.
 また,不動産情報として使えるレベルの詳細な建物情報は不動産企業の取組みに大きく依存するので,国によってかなり異なりますが,日本ではかなり豊富です.例えば,約8300万枚の賃貸物件の外観・内装や約 515万枚の間取りの画像を物件情報とアノテーションしたLifulデータセット(*)(2015)や,約 533万件の賃貸・売買物件の月次賃料(緯度経度付き,構造・築年代含む)Lifulデータセット(*)(2017),約 1万件のホットペッパービューティーデータ(店舗名,住所,データで店舗データや口コミが付与)があるリクルートデータセット(*)(2014),アットホームが提供する全国の不動産の賃料または価格,物件概要(面積,間取り,構造,築年)や立地(所在地,最寄沿線・駅,徒歩分,一部種目の緯度・経度),諸設備などを含むアットホームデータセット(*)(2019),施設データ(約 2.9万施設)とそのレビューデータ(約 656万レビュー)を含む楽天データセット(*)(2021)などがあります.それ以外の詳細は,清田陽司氏から本誌 Vol. 33, No. 5, pp. 662-668で紹介があったのでそちらをご覧ください.

表2 建物に関するデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
SZTAKI-INRIA Building Detection Benchmark(*) MTA SZTAKI 2012 665 buildings 9 satellite or aerial images
Inria Aerial Image Labeling Dataset(*) INRIA 2017 2 classes
(building and nonbuilding)
Satellite images(810km2
SpaceNet Maxar 2018 2 classes
(building and road),
11 M buildings
Satellite images
WHU building dataset Wuhan Univ. 2019 22 K buildings Aerial images with 0.075 m spatial resolution
Open Cities AI Challenge Dataset UN Global Facility for Disaster Reduction and Recovery(GFDRR) 2020 790 K buildings 400 km2, Drone image
LandCover.ai Univ. of Warsaw 2020 4 classes,
12 K buildings
Aerial images in Poland
(216 km2

4.道   路

 次は道路です.道路分野は自動運転のトレンドもあり,近年急速に進んでいる分野です.興味深いのはこの分野では大手のカーメーカも主要データの一部を一般公開している点で,これはオープンイノベーションの流れということもできます.表3に主なデータセットをまとめたが,全体的にはレーンの認識から始まり,徐々に道路空間全体のセマンティックセグメンテーションや画像からの深度(距離)計測に移ってきているといえます.また,興味深いのはドライビングシミュレータのような運転の真値がある程度わかっているゲームベースで生成される擬似画像から推定するものです.もちろん現実の画像とは複雑さは違いますが,ある程度のモデルは擬似画像から構築し,その後は実世界のデータから fne tuningなどで高精度化することができます.
 また,自動運転だけではなく,道路管理の効率化の観点から道路標識や舗装の損傷などの道路付属物を自動検出するような取組みあります.

表3 道路に関するデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
【Lane marker】
Caltech Lanes Dataset Caltech 2008 Streets and labeled lane 1.4 K images
VPGNet(*) KAIST 2017 Lane and road marker 20 K images
TuSimple TuSimple 2017 Lane marker 6 K images for highway
CULane The Chinese Univ. of HongKong 2017 Lane marker 133 K images
【Road scene】
RobotCar(*) Oxford Univ. 2016 Road space without annotation 600 K images taken by left, right and rear camera with longer term changes such as construction and roadworks, LiDAR dataset for depth prediction
BDD100K(*) UC Barkley, Cornell Univ., UC Santiago, Element 2018 Lane marker, road surface, car and person 100 K frames
Apollo Scape Dataset Baidu Research 2018 Semantic labelling(35 classes),
Lane marker labelling(35 classes),
2D instances segmentation(8 classes),
3D car instance labelling(70 K cars)
160 K dense semantics 3D point cloud images, 100 hours stereo driving videos
The Lane Marker Dataset(*) BOSCH 2019 Lane marker and baseline segmentation 100 K annotated images
OSV Dataset Wuhan Univ. 2019 5 classes(lights, cars, traffc signs, crosswalks, crosswalk warning lines),
5.6 K objects in total
1.2 K annotated images OSV: Omnidirectional Street-View
nuScenes(*) Motional 2019 3D box with semantic 40 K images with camera, LiDAR, and radar
DDAD Toyota Research Institute 2020 Depth image 16 K images with LiDAR dataset for Japanese Roads DDAD: Dense Depth for Autonomous Driving
【Synthetic data】
Playing for data TU Darmstadt & intel labs 2016 19 road object segmentation 25 K densely labelled frames split into 10 parts from the game GTA(Ground Theft Auto)
Apollo Synthetic Dataset Baidu Apollo 2019 24 road object segmentation 273 K distinct scenes from Unity engine
3D Lane Synthetic Dataset Baidu Apollo 2020 Lane marker 6 K images
【Road attachment】
Tsinghua-Tencent dataset Tsinghua Univ. 2021 Traffc signboard(80 K) 16 K high-resolution images
Road Damage Dataset 2018 The Univ. of Tokyo 2018 8 road damage classes such as linear crack, alligator crack, pothole, white line blur 9 K in-vehicle smartphone images

5.車   両

 次に,道路の一部ともいえますが,車両です.自動運転における前方車両の距離計測ではレーザ,レーダの利用が多いと思われますが,より低廉な機器という意味では,画像からの距離推計として,表4の KITTIデータセットが多く使われています.しかし,自動運転の観点だけではなく,本来は表 4のほかのデータセットのように,地域全体の交通量の把握などのニーズもあります. GPS情報の収集ではカーメーカや携帯事業者以外が行うことは難しい状況ですので,そういう意味では動きながら車両の台数を計測し,全体の交通量を把握していくような研究も重要かもしれません.

表4 車両に関するデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
KITTI Benchmark Karlsruhe Institute of Technology(KIT) 2013 80 K vehicles, 8 classes(car, van, truck, pedestrian, sitting person, cyclist, tram and misc) 15 K images, In-vehicle camera
UCAS-AOD The Univ. of Science and Technology of China(USTC) 2014 2.8 K vehicles & 3.2 K planes 310 aerial images(vehicles) & 600 images(planes)
COWC Lawrence Livermore National Laboratory 2016 32 K vehicle bounding boxes 32 aerial images(0.15 m resolution)
(COWC: Cars Overhead With Context)
DLR-MVDA German Aerospace Center(DLR) 2018 3.5 K vehicles 20 optical images is taken at a height of 1000 meters above ground.(MVDA: Multi-class Vehicle Detection and Orientation in Aerial Imagery)

6.人   々

 また,人々の分布状況も重要です.もちろん, GPSなどによる位置情報サービス由来の個人の位置情報を集約したものが正確ですが,携帯事業者やアプリのサービサ以外が収集することは難しく,事業者そのものも個人情報の関係で現実的には提供にハードルがあります.しかし,こうした携帯の位置情報を有効活用しようという機運が出始めた 2010年前後は Nokiaによる Mobile Data Challengeや, OrangeによるD4D(Data for development)などが,本人の同意のうえで集計済みの基地局データの提供などを行い,世界的にもインパクトがありました.また,表5のデータは現在提供が行われているもので,必ずしも機械学習のためのものとは限りませんが,それぞれデータ提供にはそれなりなハードルがあったことが想定され,貴重な取組みといえます.

表5 個人のトリップ情報ベースで計測したデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
T-Drive Microsoft Research Asia 2008 7 days with 10 K taxi users, No label GPS data
Geolife Microsoft Research Asia 2008
(2016 updated)
178 users, 17 K trajectories for 3 years, Transportation mode(Walk, bike, bus, car&taxi, train, airplane, other) GPS data
BerlinMOD Univ. of Hagen 2011 292 K trips from 2 K vehicles, Car type, route choice(benchmark for simulation models) GPS data
Travel time Uber Movement 2018 Travel time of each zone in 51 cities Aggregated from GPS data to zone level(GPS data is not included in the dataset)
RideAustin RideAustin
(Nonproft corporation)
2018 3 M trips of ride sharing including origin and destination spatio-temporal data GPS data(but not included in the dataset)
Pickups in NYC Uber 2018 4.5 M in 2014, 14.3 M in 2015 taxi trip destination, route choice GPS data(GPS data of one taxi company is included but other three companies are not)
PFLOW dataset(*) The Univ. of Tokyo 2008~ 7 M estimated trajectory data in 36 cities Person trip survey data based on paper questionnaire in several countries
OpenPFLOW dataset The Univ. of Tokyo 2017 500 K estimated trajectory data in Tokyo metropolitan area Several statistic data including open person trip survey data

 そうした個人情報の問題を避けるために,画像を用いて人々の状況を計測する試みもあります.表6がそれらですが,大きく分けると, CCTVのような固定カメラによるもの,車載カメラで動きながらのもの,ヘリやドローンなど,上空からのもの, SNSに投稿されたクラウドソーシング的に収集されたものなどバリエーションは多く,今後も増えていくものと思われます.

表6 人々を画像ベースで計測したデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
INRIA Person Dataset INRIA 2005 Pedestrians 2 K images from a varied set of personal photos
UCSD Anomaly Detection Dataset Univ. of California 2008 Bikers, skaters, small carts, and people walking 98 videos from fxed CCTV
Robust Multi-Person Tracking from Mobile Platforms ETH 2008 Pedestrians In-vehicle camera, 8 videos with 13~ 14 FPS
Daimler Pedestrian Detection Benchmark Dataset / Segmentation Benchmark Dataset Daimler 2009/
2013
72 K Pedestrians / 500 images(ground, building, vehicle, pedestrian, sky) In-vehicle camera
Tsinghua-Daimler Cyclist Detection Benchmark Dataset Daimler 2016 32 K Cyclists In-vehicle camera
UCF50 – Action Recognition Data / UCF-QNRF – A Large Crowd Counting Data Set Univ. of Central Florida 2013/
2018
63 K / 1 251 K Pedestrians Images collected mainly from the FLICKR
WorldExpo’10 Crowd Counting Dataset(*) Shanghai Jiao Tong Univ. 2015 225 K Pedestrians 108 surveillance cameras
ShanghaiTech Dataset ShanghaiTech Univ. 2016 330 K Pedestrians 1198 crowd images collected from the Internet and personal camera
Stanford Drone Dataset Stanford Univ. 2016 Pedestrians, bicyclists, skateboarders, cars, buses, and golf carts
(10 K trajectories)
Drone camera
TokyoHawkeye The Univ. of Tokyo 2020 120 K Pedestrians Static images from helicopter in 10 different locations
Motion Dataset, Perception Dataset Waymo 2021 Vehicles, Pedestrians, Cyclists(10.8 M trajectories)/
Vehicles, Pedestrians, Cyclists, Signs(12.6 M 3 D and 11.8 M 2 D bounding box trajectories)
High-resolution sensor data collected by autonomous vehicles

7.都 市 全 体

 最後に,都市全体に関するデータセットです.これは冒頭の土地利用と近い部分もありますが,もう少し都市を構成する各構造物を判別できるレベルであり,表7に示すように,一般の衛星画像というよりは,かなり高解像度の航空写真か地上からの画像が主体となっています.そうなると,建物で述べたように自ずと三次元的な都市のディジタルツインの方向に向かい,今後,より高い精度を競っていくようなホットな領域となりそうです.

表7 都市全体を計測したデータセット

データセット名 提供主体 提供年 分類数や
アノテーション数
ソースデータ概略
Place Plus(*) MIT media lab 2013 Street score, Street change 100 K images(56 cities)
SYNTHIA Computer Vision Center 2016 13 classes(sky, building, road, sidewalk, fence, vegetation, pole, car, sign, pedestrian, cyclist, lane-marking, misc.) 50 K images, photo-realistic frames rendered from a virtual city SYHTHIA: SYNTHetic collection of Imagery and Annotations
ADE20k(*) MIT & Toronto Univ. 2017 3688 classes for indoor and outdoor scene(For Semantic Segmentation, 150 classes are used) 27 K images from SUN and Places Database
AID Wuhan Univ. 2017 30 classes 10 K images, AID(Aerial Image Dataset)
Cityscapes dataset(5000 annotated images & 20000 coarse annotations) TU Darmstadt 2020 20 K coarse annotated objects,
30 classes
5 K images, In-vehicle camera for 50 cities
Holicity UC Berkeley 2020 3D cad dataset for surface segments(6 classes such as sky or nothing, buildings, roads, terrains, trees, others), depth and normal estimation 6.3 K images, High-resolution aerial image
Mapillary Vistas Dataset(*) Mapillary 2021 124 semantic object categories, 100 instance-specifcally annotated categories 25 K high-resolution images, Pedestrian’s camera

8.お わ り に

 本稿では都市空間のデータセットについて,どちらかと言えば個別分野で進められていたものを俯瞰的に見通すことを試みました.冗長になってしまった部分もあるものの,まとめ始めると自分自身でもいろいろと参考になる部分が多く,皆様の今後の研究展開の一助となれば幸いです.

謝 辞

 本稿は,研究室の多くのメンバに協力をいただきました. Ashutoshu Kumar, Shenglong Chen, Go Sato, Hiroya Maeda, Takehiro Kashiyama, Yoshiki Ogawa, Yanbo Pang, Santiago Garcia, Toshikazu Seto, Zhehui Yang(順不同)には改めて感謝致します.