Google har precis publicerat 25 miljoner gratis dataset
Här är vad du behöver veta om världens största datalager
Tom Waterman
Tom Waterman
24 jan · 2 min läs
Obs! Googles nya sökverktyg för dataset släpptes offentligt den 23 januari 2020.
Google släppte nyligen datasetsearch, ett gratis verktyg för att söka 25 miljoner offentligt tillgängliga dataset.
Sökverktyget innehåller filter för att begränsa resultaten baserat på deras licens (gratis eller betald), format (csv, bilder, etc) och uppdateringstid.
Resultaten inkluderar även beskrivningar av datamängdens innehåll samt författarreferenser.
Googles dataset aggregeringsmetod skiljer sig från andra dataset databaser som Amazons öppna dataregister. Till skillnad från andra databaser som kuraterar och är värd för datamängderna själva, Google inte curate eller ger direkt tillgång till 25 miljoner dataset direkt.
I stället förlitar sig Google på att datasetutgivarna använder de öppna standarderna för schema.org för att beskriva datasetets metadata. Google indexerar sedan och gör att metadata kan sökas mellan publicister.
Eftersom publicister fortfarande måste vara värd för dataseten själva, kommer vinstdrivande utgivare som följer schema.org-standarderna också att indexera sina dataset av Google. I min anekdotiska erfarenhet fann jag att ungefär hälften av dataseten i sökresultaten var från vinstdrivande aggregatorer, med en ännu högre andel när jag sökte efter marknadsrelaterade datamängder.
Andra populära dataset utgivare på plattformen inkluderar myndigheter och forskningsinstitutioner. Google hävdar att amerikanska myndigheter ensam har publicerat över 2 miljoner datamängder.
Enligt Google är de flesta dataseten relaterade till ”geovetenskaper, biologi och jordbruk”.
För att publicera dina egna dataset kan du helt enkelt använda de öppna standarderna för schema.org. Antalet allmänt tillgängliga datamängder kommer sannolikt att fortsätta att öka i takt med att fler utgivare följer standarden.
För närvarande tillhandahåller Google inte ett API för att söka eller ladda ner gratis datamängder.
Mer information om utgåvan finns på Googles blogg.
Tack för att du läste! Jag skriver på Medium om data science relaterade ämnen, så du kan följa mig för att få meddelande när jag skriver fler artiklar som den här.
Datavetenskap
Nyheter
Google
Mot datavetenskap
Maskininlärning
860 klappar

Tom Waterman
SKRIVEN AV

Tom Waterman
Data Scientist @ Facebook
Följ
Mot datavetenskap
Mot datavetenskap
En Medium publikation som delar koncept, idéer och koder.
Följ

This div height required for enabling the sticky sidebar
Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views : Ad Clicks : Ad Views :