Medienstratege – Redaktionsberatung und Medienseminare mit Peter Berger Praktisch gesehen: Ein Python-Skript für Datenjournalisten - Medienstratege - Redaktionsberatung und Medienseminare mit Peter Berger

Medienblog

Praktisch gesehen: Ein Python-Skript für Datenjournalisten

Sie sind Datenjournalist? Und haben erste Schritte in Python 3 unternommen? Für Sie habe ich ein kleines Skript geschrieben, das Tabellen aus Webseiten extrahiert und speichert.

#Dieses Script scrapt per bs4 die Tabelle aus einer Website,

#und speichert sie per csv-module als csv-Datei ab. Datei kann

#dann in Google Spreadsheets hochgeladen und bearbeitet werden

import csv

import requests

from bs4 import BeautifulSoup

#1. Schritt: HTML-Code der Website laden

r = requests.get(‚http://frankbi.com/aaja/farmermarkets/‘)

rHTML = r.text

soup = BeautifulSoup(rHTML)

#2. Schritt: In HTM-Seite die richtige Tabelle suchen mit Webdeveloper (#id oder .class finden)

#Entscheiden: Welche Tabellenköpfe benötige ich. Aufschreiben.

datensaetze = []

#3. Schritt: Liste anlegen, die alle <tr> enthält

tableRows = soup.select(‚.datatable tr ‚)

#4. Schritt: einzelne Tabellenreihe holen.

for i in tableRows:

#5. Schritt: Liste anlegen, die alle <td> eines ausgewählten <tr> enthält

tableData = i.select(‚td‘)

#6. Schritt: Sicher stellen, dass nur komplette Reihen angezeigt werden:

if len(tableData) == 8:

#7. Schritt: Datensatz für CSV erzeugen

county = tableData[0].text

marketName = tableData[1].text

address = tableData[2].text

datensatz = [county, marketName, address]

datensaetze.append(datensatz)

tupleDatensaetze = tuple(datensaetze)

#8. Schritt: Datensatz in CSV-Datei schreiben.

#9. Schritt: csv-Datei erzeuegn mit ‚with‘ (öffnet und schließt die Datei)

with open(‚meineDaten.csv‘,’w‘,newline=“) as csvfile:

#10. Schritt: writer-Objekt erzeugen, Daten reinschreiben

writerObject = csv.writer(csvfile)

writerObject.writerow([‚County‘,’Market Name‘,’Address‘,])

writerObject.writerows(tupleDatensaetze)

Vorsicht, Programmiercode! Das folgende Skript liest per Beautiful Soup die Tabelle in einer Website aus und speichert die Daten in einer csv-Datei ab. Die Datei kann dann in Google Spreadsheets geladen und vom Datenjournalisten ausgewertet werden.

import csv, requests

from bs4 import BeautifulSoup

#1. Schritt: HTML-Code der Website laden

r = requests.get(‚http://frankbi.com/aaja/farmermarkets/‘)

rHTML = r.text

soup = BeautifulSoup(rHTML)

#2. Schritt: In Website die richtige Tabelle suchen mit Webdeveloper (#id oder .class finden)

#Entscheiden, welche Tabellenköpfe ich benötige. Aufschreiben.

datensaetze = []

#3. Schritt: Liste anlegen, die alle Tabellenreihen enthält

tableRows = soup.select(‚.datatable tr ‚)

#4. Schritt: einzelne Tabellenreihe holen.

for i in tableRows:

#5. Schritt: Liste anlegen, die alle Tabellendaten einer ausgewählten Tabellenreihe enthält

tableData = i.select(‚td‘)

#6. Schritt: Sicher stellen, dass nur die richtigen Reihen angezeigt werden:

if len(tableData) == 8:

#7. Schritt: Datensatz für CSV erzeugen

county = tableData[0].text

marketName = tableData[1].text

address = tableData[2].text

datensatz = [county, marketName, address]

datensaetze.append(datensatz)

tupleDatensaetze = tuple(datensaetze)

#8. Schritt: Datensatz in CSV-Datei schreiben.

# csv-Datei erzeugen mit ‚with‘ (öffnet und schließt die Datei)

with open(‚meineDaten.csv‘, ‚w‘ ,newline=“) as csvfile:

#10. Schritt: writer-Objekt erzeugen, Daten reinschreiben

writerObject = csv.writer(csvfile)

writerObject.writerow([‚County‘,’Market Name‘,’Address‘,])

writerObject.writerows(tupleDatensaetze)

Das Skript lässt sich schnell anpassen. Viel Spaß!

Mai 9, 2014

Geschrieben von: Peter Berger

Kategorie: Medienblog

Tags: Datenjournalismus, Seminar, Workshop

Kommentare

No Comments

Medienstratege – Redaktionsberatung und Medienseminare mit Peter Berger

Praktisch gesehen: Ein Python-Skript für Datenjournalisten

Kommentare

Schreiben Sie einen Kommentar

Kontakt