【記事更新】私のブックマーク「都市空間の情報処理─データセットの世界動向」


私のブックマーク

都市空間の情報処理─データセットの世界動向

関本 義秀(東京大学空間情報科学研究センター,東京大学デジタル空間社会連携研究機構)

1.は じ め に

 近年,情報処理や人工知能などの分野でも,社会実装の一端として,都市空間全体を対象にした研究・ビジネスをしている人も増えているのではないでしょうか? 巷ではスマートシティ,スーパーシティなどの言葉も出てきていますし,都市のディジタルツインというキーワードも日常的になってきました.特に機械学習・深層学習の進展により,都市のような実世界を自動認識し,大変な労力をかけて行っているさまざまな都市管理を少しずつ自動化による DXを進めていく実践的な取組みも進んできています.
 しかし,都市の構成物は複雑であるため,これらは簡単ではなく,また,行政や実ビジネスで使おうとすると一定以上の精度が求められることも多いため,うまく自動化しきれない処理工程もあったり,分野によってかなり取組みが異なることもあります.いずれにしても,機械学習のためにはさまざまなデータが必要であり,こうしたデータの多くが個別の企業や大学の競争力の源泉である一方で,我々自身が普段オープンなデータセットに助けられて研究・ビジネスなどが行えていることも多々あります.研究やビジネス全体の進展と社会への還元という意味では,それぞれのビジネスモデルの範囲でなるべく積極的にデータセットの共有が進められるべきだと考えています.また, COVID-19や世界の分断などで不安要素が増す中で,日本が世界に貢献できることなども考えていく必要があります.研究者であれば,オリジナリティのあるデータを公開して,国際学会を通じて,データチャレンジのイベントを積極的に開催し,仲間の輪を広げていくことなども一つのアプローチだと思います.
 そこで,本稿では,都市に関する主要な地物に焦点を当て,それぞれの分野で世界的にどのような「都市の教師データセット」が提供されているかを俯瞰し,今後,取り組むべき研究・ビジネスなどを展望します.なお,今回はそういう意味では,データセットに焦点を当てていますので,その他,都市空間の情報処理そのもの基礎的なことは割愛しています.また,本稿の中で(*)のデータセットは何らかの申請・許諾が必要であり,それ以外はオープンな形でダウンロードが可能となっています.ただ,いずれの場合も多くの場合は研究用には使えるものの商業目的の場合は一報を入れることになっているタイプのライセンスが多いので留意してください.

2.土 地 利 用

 まず最初に,土地利用の分野を紹介します.土地利用は都市の開発そのものや農業生産の収穫予測など都市の根幹に関わる部分であるため,この分野は割と古くから航空写真やリモートセンシングによる衛星画像を使って取り組まれています.ここでは,機械学習が普及する以前の 1980~ 90年代から画像のピクセル値によるクラスタリングで土地利用の分類を行う教師なし分類があり,もちろん分析ソフトウェア上で既知の土地利用データを読み込ませて分類する,教師あり分類も徐々に増え,現在のような機械学習につながっているといえます.特に航空写真では見えない可視光以外のセンサデータを搭載している衛星画像は,波長帯に応じた物質の反射特性によりさまざまなことがわかりますが,可視光画像そのものの高解像度化のほうが判別精度そのものに影響することが多いようで,表1のように高解像度化,多クラス化が進んでいます.そういう意味では近年では衛星画像のバリエーションも増え,超解像の技術なども適用し,少数の高解像度画像で学習し,広域の低解像度画像からでもある程度の高精度な土地利用推定を行うような研究もあります.

表1 土地利用に関するデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
UC Merced Land Use DatasetUC Merced201021 classes100 aerial images for each class, measures 256×256 pixels, the pixel resolution is 1 foot
RSSCN7Wuhan Univ.20157 classes2.8 K remote sensing images
SAT-6 airborne datasetsLouisiana State Univ. & Nasa20156 classes405 K image patches each of size 28×28
SIRI-WHU: googleWuhan Univ.201612 classes200 images for each classes, each image measures 200×200 pixels, with a 2-m spatial resolution
SIRI-WHU: USGSWuhan Univ.20164 classesThe large image measures 10000×9000 pixels, with a 2 ft spatial resolution
RSI-CBCentral South Univ.201735 classes24 K images, 256×256 pixel sizes with 0.3~ 3 m spatial resolutions
Dstl Satellite Imagery Feature Detection(Dstl Satellite Imagery Feature Detection),KaggleDstl201710 classes57 images, 1×1 km, 3/16-band Worldview 3 imagery( 0.3 m-7.5 m spatial resolutions)
DLRSDWuhan Univ.201821 classes100 images per class with 256×256 pixels size
LandCoverNetRadiant Earth Foundation20185 classes1.9 K images, 256×256 pixels in V1.0 spanning 66 tiles of Sentinel-2
DroneDeploy
(https://competitions.codalab.org/competitions/18468)
DroneDeploy20197 classesA number of aerial scenes captured from drones. Each scene has a ground resolution of 10 cm per pixel
Slovenia Land Cover ClassificationSinergise201910 classes940 EOPatches of the size 500×500 pixels at 10 m resolution
SEN12MSTUM201933 classes180 K patch triplets of corresponding Sentinel-1 dual-pol SAR data, Sentinel-2 multi-spectral images, and MODIS-derived land cover maps
LandCover.ailinuxpo20203 classes33 orthophotos with 25 cm per pixel resolution(~ 9000×9500 px) , 8 orthophotos with 50 cm per pixel resolution(~ 4200×4700 px)
BDCI 2020(*)BDCI20207 classes140 K JPG images at a resolution of 2 m/ pixel and a size of 256×256
Gaofen Image Dataset(GID)Wuhan Univ.20205 and 15 classes
(2 versions)
The large-scale classifcation set contains 150 pixel-level annotated GF-2 images, and the fne classifcation set is composed of 30000 multi-scale image patches coupled with 10 pixel-level annotated GF-2 images.
CLRSCentral South Univ.202025 classes15 K remote sensing images, image size is 256×256, The resolution of the images ranges from 0.26 m to 8.85 m
SenseEarth Classify(*)Sense Earth20208 classes with 28 sub classes
(51 different categories in total)
70 K remote sensing images
Multi-View Datasets: AiRoundFederal Univ. of Minas Gerais202011 classes11 K images

3.建   物

 次に,建物についてです.建物は人々の生活やビジネスの拠点となるため,昔から例えば固定資産税の把握のためなどに航空写真撮影で建物異同の判別などを行ってきましたが,最近では高精度な地図作成や三次元化,あるいは空家問題や不動産情報など,高精度な建物データへのニーズが高まっています.その一方で,建物データの表現レベルもいろいろありますが,まずは航空写真や衛星画像から建物の二次元ポリゴン形状が自動抽出できることが一定のマイルストンであり,表2に示すようなさまざまなデータセットがこれまでも公開されてきています.しかしこれもまだ実用に耐え得る精度とは言いづらく,空間的な解像度や対象エリアが異なる教師画像で学習したモデルを他の画像に適用すると,途端に精度が下がってしまうことが多々あります.また,実用的には建物の具体的な属性(例えば,一般建物か事業所かの区分や築年数,あるいは木造・鉄筋などの建物構造)なども併せて推定できるとよりデータとしての価値が上がりますが,それにはより近接の画像(例えば,地上の車載からの撮影画像など)が必要です.
 表2のような二次元情報以外ですと,複数の二次元画像から三次元構造の推定を試みる SfM( Structure from Motion)向けに, Washington Univ.と Microsoft社がノートルダム大聖堂の画像を公開した Photo Tourism Dataset(2006)や, Cornell Univ.が 200シーンの Landmarkの距離画像約 10万枚を公開した MegaDepth(2018)などもあります.また,最近,日本では国土交通省がプラトーという都市の三次元化プロジェクト内で 56都市の都市計画区域内の建物三次元データをG空間情報センター内で 2021年 3月よりデータ公開を始めており,こうしたものも学習のデータとして使えるようになっていく可能性があります.
 また,不動産情報として使えるレベルの詳細な建物情報は不動産企業の取組みに大きく依存するので,国によってかなり異なりますが,日本ではかなり豊富です.例えば,約8300万枚の賃貸物件の外観・内装や約 515万枚の間取りの画像を物件情報とアノテーションしたLifulデータセット(*)(2015)や,約 533万件の賃貸・売買物件の月次賃料(緯度経度付き,構造・築年代含む)Lifulデータセット(*)(2017),約 1万件のホットペッパービューティーデータ(店舗名,住所,データで店舗データや口コミが付与)があるリクルートデータセット(*)(2014),アットホームが提供する全国の不動産の賃料または価格,物件概要(面積,間取り,構造,築年)や立地(所在地,最寄沿線・駅,徒歩分,一部種目の緯度・経度),諸設備などを含むアットホームデータセット(*)(2019),施設データ(約 2.9万施設)とそのレビューデータ(約 656万レビュー)を含む楽天データセット(*)(2021)などがあります.それ以外の詳細は,清田陽司氏から本誌 Vol. 33, No. 5, pp. 662-668で紹介があったのでそちらをご覧ください.

表2 建物に関するデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
SZTAKI-INRIA Building Detection Benchmark(*)MTA SZTAKI2012665 buildings9 satellite or aerial images
Inria Aerial Image Labeling Dataset(*)INRIA20172 classes
(building and nonbuilding)
Satellite images(810km2
SpaceNetMaxar20182 classes
(building and road),
11 M buildings
Satellite images
WHU building datasetWuhan Univ.201922 K buildingsAerial images with 0.075 m spatial resolution
Open Cities AI Challenge DatasetUN Global Facility for Disaster Reduction and Recovery(GFDRR)2020790 K buildings400 km2, Drone image
LandCover.aiUniv. of Warsaw20204 classes,
12 K buildings
Aerial images in Poland
(216 km2

4.道   路

 次は道路です.道路分野は自動運転のトレンドもあり,近年急速に進んでいる分野です.興味深いのはこの分野では大手のカーメーカも主要データの一部を一般公開している点で,これはオープンイノベーションの流れということもできます.表3に主なデータセットをまとめたが,全体的にはレーンの認識から始まり,徐々に道路空間全体のセマンティックセグメンテーションや画像からの深度(距離)計測に移ってきているといえます.また,興味深いのはドライビングシミュレータのような運転の真値がある程度わかっているゲームベースで生成される擬似画像から推定するものです.もちろん現実の画像とは複雑さは違いますが,ある程度のモデルは擬似画像から構築し,その後は実世界のデータから fne tuningなどで高精度化することができます.
 また,自動運転だけではなく,道路管理の効率化の観点から道路標識や舗装の損傷などの道路付属物を自動検出するような取組みあります.

表3 道路に関するデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
【Lane marker】
Caltech Lanes DatasetCaltech2008Streets and labeled lane1.4 K images
VPGNet(*)KAIST2017Lane and road marker20 K images
TuSimpleTuSimple2017Lane marker6 K images for highway
CULaneThe Chinese Univ. of HongKong2017Lane marker133 K images
【Road scene】
RobotCar(*)Oxford Univ.2016Road space without annotation600 K images taken by left, right and rear camera with longer term changes such as construction and roadworks, LiDAR dataset for depth prediction
BDD100K(*)UC Barkley, Cornell Univ., UC Santiago, Element2018Lane marker, road surface, car and person100 K frames
Apollo Scape DatasetBaidu Research2018Semantic labelling(35 classes),
Lane marker labelling(35 classes),
2D instances segmentation(8 classes),
3D car instance labelling(70 K cars)
160 K dense semantics 3D point cloud images, 100 hours stereo driving videos
The Lane Marker Dataset(*)BOSCH2019Lane marker and baseline segmentation100 K annotated images
OSV DatasetWuhan Univ.20195 classes(lights, cars, traffc signs, crosswalks, crosswalk warning lines),
5.6 K objects in total
1.2 K annotated images OSV: Omnidirectional Street-View
nuScenes(*)Motional20193D box with semantic40 K images with camera, LiDAR, and radar
DDADToyota Research Institute2020Depth image16 K images with LiDAR dataset for Japanese Roads DDAD: Dense Depth for Autonomous Driving
【Synthetic data】
Playing for dataTU Darmstadt & intel labs201619 road object segmentation25 K densely labelled frames split into 10 parts from the game GTA(Ground Theft Auto)
Apollo Synthetic DatasetBaidu Apollo201924 road object segmentation273 K distinct scenes from Unity engine
3D Lane Synthetic DatasetBaidu Apollo2020Lane marker6 K images
【Road attachment】
Tsinghua-Tencent datasetTsinghua Univ.2021Traffc signboard(80 K)16 K high-resolution images
Road Damage Dataset 2018The Univ. of Tokyo20188 road damage classes such as linear crack, alligator crack, pothole, white line blur9 K in-vehicle smartphone images

5.車   両

 次に,道路の一部ともいえますが,車両です.自動運転における前方車両の距離計測ではレーザ,レーダの利用が多いと思われますが,より低廉な機器という意味では,画像からの距離推計として,表4の KITTIデータセットが多く使われています.しかし,自動運転の観点だけではなく,本来は表 4のほかのデータセットのように,地域全体の交通量の把握などのニーズもあります. GPS情報の収集ではカーメーカや携帯事業者以外が行うことは難しい状況ですので,そういう意味では動きながら車両の台数を計測し,全体の交通量を把握していくような研究も重要かもしれません.

表4 車両に関するデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
KITTI BenchmarkKarlsruhe Institute of Technology(KIT)201380 K vehicles, 8 classes(car, van, truck, pedestrian, sitting person, cyclist, tram and misc)15 K images, In-vehicle camera
UCAS-AODThe Univ. of Science and Technology of China(USTC)20142.8 K vehicles & 3.2 K planes310 aerial images(vehicles) & 600 images(planes)
COWCLawrence Livermore National Laboratory201632 K vehicle bounding boxes32 aerial images(0.15 m resolution)
(COWC: Cars Overhead With Context)
DLR-MVDAGerman Aerospace Center(DLR)20183.5 K vehicles20 optical images is taken at a height of 1000 meters above ground.(MVDA: Multi-class Vehicle Detection and Orientation in Aerial Imagery)

6.人   々

 また,人々の分布状況も重要です.もちろん, GPSなどによる位置情報サービス由来の個人の位置情報を集約したものが正確ですが,携帯事業者やアプリのサービサ以外が収集することは難しく,事業者そのものも個人情報の関係で現実的には提供にハードルがあります.しかし,こうした携帯の位置情報を有効活用しようという機運が出始めた 2010年前後は Nokiaによる Mobile Data Challengeや, OrangeによるD4D(Data for development)などが,本人の同意のうえで集計済みの基地局データの提供などを行い,世界的にもインパクトがありました.また,表5のデータは現在提供が行われているもので,必ずしも機械学習のためのものとは限りませんが,それぞれデータ提供にはそれなりなハードルがあったことが想定され,貴重な取組みといえます.

表5 個人のトリップ情報ベースで計測したデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
T-DriveMicrosoft Research Asia20087 days with 10 K taxi users, No labelGPS data
GeolifeMicrosoft Research Asia2008
(2016 updated)
178 users, 17 K trajectories for 3 years, Transportation mode(Walk, bike, bus, car&taxi, train, airplane, other)GPS data
BerlinMODUniv. of Hagen2011292 K trips from 2 K vehicles, Car type, route choice(benchmark for simulation models)GPS data
Travel timeUber Movement2018Travel time of each zone in 51 citiesAggregated from GPS data to zone level(GPS data is not included in the dataset)
RideAustinRideAustin
(Nonproft corporation)
20183 M trips of ride sharing including origin and destination spatio-temporal dataGPS data(but not included in the dataset)
Pickups in NYCUber20184.5 M in 2014, 14.3 M in 2015 taxi trip destination, route choiceGPS data(GPS data of one taxi company is included but other three companies are not)
PFLOW dataset(*)The Univ. of Tokyo2008~7 M estimated trajectory data in 36 citiesPerson trip survey data based on paper questionnaire in several countries
OpenPFLOW datasetThe Univ. of Tokyo2017500 K estimated trajectory data in Tokyo metropolitan areaSeveral statistic data including open person trip survey data

 そうした個人情報の問題を避けるために,画像を用いて人々の状況を計測する試みもあります.表6がそれらですが,大きく分けると, CCTVのような固定カメラによるもの,車載カメラで動きながらのもの,ヘリやドローンなど,上空からのもの, SNSに投稿されたクラウドソーシング的に収集されたものなどバリエーションは多く,今後も増えていくものと思われます.

表6 人々を画像ベースで計測したデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
INRIA Person DatasetINRIA2005Pedestrians2 K images from a varied set of personal photos
UCSD Anomaly Detection DatasetUniv. of California2008Bikers, skaters, small carts, and people walking98 videos from fxed CCTV
Robust Multi-Person Tracking from Mobile PlatformsETH2008PedestriansIn-vehicle camera, 8 videos with 13~ 14 FPS
Daimler Pedestrian Detection Benchmark Dataset / Segmentation Benchmark DatasetDaimler2009/
2013
72 K Pedestrians / 500 images(ground, building, vehicle, pedestrian, sky)In-vehicle camera
Tsinghua-Daimler Cyclist Detection Benchmark DatasetDaimler201632 K CyclistsIn-vehicle camera
UCF50 – Action Recognition Data / UCF-QNRF – A Large Crowd Counting Data SetUniv. of Central Florida2013/
2018
63 K / 1 251 K PedestriansImages collected mainly from the FLICKR
WorldExpo’10 Crowd Counting Dataset(*)Shanghai Jiao Tong Univ.2015225 K Pedestrians108 surveillance cameras
ShanghaiTech DatasetShanghaiTech Univ.2016330 K Pedestrians1198 crowd images collected from the Internet and personal camera
Stanford Drone DatasetStanford Univ.2016Pedestrians, bicyclists, skateboarders, cars, buses, and golf carts
(10 K trajectories)
Drone camera
TokyoHawkeyeThe Univ. of Tokyo2020120 K PedestriansStatic images from helicopter in 10 different locations
Motion Dataset, Perception DatasetWaymo2021Vehicles, Pedestrians, Cyclists(10.8 M trajectories)/
Vehicles, Pedestrians, Cyclists, Signs(12.6 M 3 D and 11.8 M 2 D bounding box trajectories)
High-resolution sensor data collected by autonomous vehicles

7.都 市 全 体

 最後に,都市全体に関するデータセットです.これは冒頭の土地利用と近い部分もありますが,もう少し都市を構成する各構造物を判別できるレベルであり,表7に示すように,一般の衛星画像というよりは,かなり高解像度の航空写真か地上からの画像が主体となっています.そうなると,建物で述べたように自ずと三次元的な都市のディジタルツインの方向に向かい,今後,より高い精度を競っていくようなホットな領域となりそうです.

表7 都市全体を計測したデータセット

データセット名提供主体提供年分類数や
アノテーション数
ソースデータ概略
Place Plus(*)MIT media lab2013Street score, Street change100 K images(56 cities)
SYNTHIAComputer Vision Center201613 classes(sky, building, road, sidewalk, fence, vegetation, pole, car, sign, pedestrian, cyclist, lane-marking, misc.)50 K images, photo-realistic frames rendered from a virtual city SYHTHIA: SYNTHetic collection of Imagery and Annotations
ADE20k(*)MIT & Toronto Univ.20173688 classes for indoor and outdoor scene(For Semantic Segmentation, 150 classes are used)27 K images from SUN and Places Database
AIDWuhan Univ.201730 classes10 K images, AID(Aerial Image Dataset)
Cityscapes dataset(5000 annotated images & 20000 coarse annotations)TU Darmstadt202020 K coarse annotated objects,
30 classes
5 K images, In-vehicle camera for 50 cities
HolicityUC Berkeley20203D cad dataset for surface segments(6 classes such as sky or nothing, buildings, roads, terrains, trees, others), depth and normal estimation6.3 K images, High-resolution aerial image
Mapillary Vistas Dataset(*)Mapillary2021124 semantic object categories, 100 instance-specifcally annotated categories25 K high-resolution images, Pedestrian’s camera

8.お わ り に

 本稿では都市空間のデータセットについて,どちらかと言えば個別分野で進められていたものを俯瞰的に見通すことを試みました.冗長になってしまった部分もあるものの,まとめ始めると自分自身でもいろいろと参考になる部分が多く,皆様の今後の研究展開の一助となれば幸いです.

謝 辞

 本稿は,研究室の多くのメンバに協力をいただきました. Ashutoshu Kumar, Shenglong Chen, Go Sato, Hiroya Maeda, Takehiro Kashiyama, Yoshiki Ogawa, Yanbo Pang, Santiago Garcia, Toshikazu Seto, Zhehui Yang(順不同)には改めて感謝致します.