SlideShare ist ein Scribd-Unternehmen logo
1 von 70
Getting Data with
import.io
Kerstin Reichert – SEO CAMPIXX 2016
Kerstin Reichert
SEO Consultant & Trainerin
Kerstin Reichert – Getting Data with import.io
Kontakt
Kerstin Reichert – Getting Data with import.io
Mail: hi@kerstinreichert.com
Website: www.kerstinreichert.com
Google+: https://plus.google.com/+KerstinReichert
Twitter: @Frau_Reichert
Snapchat: frau_reichert
Before we get started
Kerstin Reichert – Getting Data with import.io
Disclaimer
Kerstin Reichert – Getting Data with import.io
Crawl responsibly!
http://support.import.io/knowledgebase/articles/265497-best-practice-in-web-crawling
Kerstin Reichert – Getting Data with import.io
Zielsetzung
Kerstin Reichert – Getting Data with import.io
Welche Informationen werden benötigt und wofür?
Kerstin Reichert – Getting Data with import.io
Wie erreiche ich mein Ziel?
Kerstin Reichert – Getting Data with import.io
Mit welcher Methode kann ich die relevanten Daten
erheben, aufbereiten und in mein gewünschtes Format
bringen?
An intro to import.io
Kerstin Reichert – Getting Data with import.io
Web Scraping
https://en.wikipedia.org/wiki/Web_scraping
"Web scraping (web harvesting or web data extraction) is a computer software
technique of extracting information from websites. Usually, such software
programs simulate human exploration of the World Wide Web by either
implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-
fledged web browser, such as Mozilla Firefox.
Web scraping is closely related to web indexing, which indexes information on
the web using a bot or web crawler and is a universal technique adopted by most
search engines."
Kerstin Reichert – Getting Data with import.io
Import.io
Kerstin Reichert – Getting Data with import.io
Kerstin Reichert – Getting Data with import.io
Wie funktioniert import.io?
Kerstin Reichert – Getting Data with import.io
• Auslesen von Websites
• Extrahieren von Daten
• Point and Click UI zur Auswahl der Informationen
• Algorithmus transferiert Auswahl in strukturiertes
Datenformat
• Real-time API
• No coding
• import.io ist kostenlos
Kerstin Reichert – Getting Data with import.io
Anwendung von import.io
Kerstin Reichert – Getting Data with import.io
• Daten analysieren
• Informationen visualisieren
• "Easier than copy and paste"
Kerstin Reichert – Getting Data with import.io
Download import.io
Kerstin Reichert – Getting Data with import.io
https://www.import.io/download/download-windows
import.io Tools
Kerstin Reichert – Getting Data with import.io
import.io Tool-Set
Kerstin Reichert – Getting Data with import.io
Kerstin Reichert – Getting Data with import.io
Magic
Kerstin Reichert – Getting Data with import.io
• Kein Setup notwendig
• One-Click Funktion
• Extrahiert Daten von angegebenen URLs
• Erkennt Paginierung
• Eingeschränkter Funktionsumfang
Kerstin Reichert – Getting Data with import.io
Magic – Crawl starten
Kerstin Reichert – Getting Data with import.io
• Per One-Click-Funktion werden Daten extrahiert
• Paginierung wird erkannt und berücksichtigt
Kerstin Reichert – Getting Data with import.io
Magic – API speichern
Kerstin Reichert – Getting Data with import.io
• Abfrage kann nach Speichern im Dashboard durchgeführt werden
• Single und Bulk Extract möglich
Kerstin Reichert – Getting Data with import.io
Magic – CSV Download
Kerstin Reichert – Getting Data with import.io
Download ist als CSV oder JSON verfügbar
Kerstin Reichert – Getting Data with import.io
Extractor
Kerstin Reichert – Getting Data with import.io
• Tool-Download notwendig
• Point and Click UI
• Bulk-Extract möglich
Kerstin Reichert – Getting Data with import.io
Extractor- URL Anagbe
Kerstin Reichert – Getting Data with import.io
Vom Browser zum Extractor (ON/OFF)
Kerstin Reichert – Getting Data with import.io
Extractor - Formatwahl
Kerstin Reichert – Getting Data with import.io
Eine vs. viele Zeilen
Kerstin Reichert – Getting Data with import.io
Extractor - Datenselektion
Kerstin Reichert – Getting Data with import.io
Datenauswahl per Click
Kerstin Reichert – Getting Data with import.io
Extractor - XPath & RegEx
Kerstin Reichert – Getting Data with import.io
Advanced Settings – Xpath & RegEx
Kerstin Reichert – Getting Data with import.io
Datenselektion per XPath
Kerstin Reichert – Getting Data with import.io
z.B. bei Drop-Downs
Kerstin Reichert – Getting Data with import.io
Copy XPath
Kerstin Reichert – Getting Data with import.io
Genaue Pfadangabe der zu extrahierenden Daten
Beispiel: //*[@id="listProductSizes"]
Kerstin Reichert – Getting Data with import.io
Learning XPath
Kerstin Reichert – Getting Data with import.io
http://www.w3schools.com/xsl/xpath_intro.asp
Kerstin Reichert – Getting Data with import.io
Datenauswahl per RegEx
Kerstin Reichert – Getting Data with import.io
Per XPath generierte Daten präzisieren / bereinigen
Kerstin Reichert – Getting Data with import.io
Learning RegEx
Kerstin Reichert – Getting Data with import.io
https://www.codeschool.com/courses/breaking-the-ice-with-regular-expressions
Kerstin Reichert – Getting Data with import.io
Xpath &RegEx Cheat Sheet
Kerstin Reichert – Getting Data with import.io
https://docs.google.com/document/d/1DJXHTqRMyaOwON_a7J9tQIFeKx5e-
HNU5uyHS7GdYeE/edit#heading=h.gw71hsqkt4kw
Kerstin Reichert – Getting Data with import.io
Extractor - Bulk-Extract
Kerstin Reichert – Getting Data with import.io
Per Bulk Extract können URL-Listen für den Crawl hinterlegt werden
Kerstin Reichert – Getting Data with import.io
Crawler
Kerstin Reichert – Getting Data with import.io
• Automatisierter Extractor
• Falls URL nicht bekannt
• Wird trainiert
• Mindestens 5 Beispiele notwendig!
Kerstin Reichert – Getting Data with import.io
Crawler – Training
Kerstin Reichert – Getting Data with import.io
Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)
Kerstin Reichert – Getting Data with import.io
Crawler – Datenauswahl
Kerstin Reichert – Getting Data with import.io
• Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)
• Markieren der zu extrahierenden Informationen
• Der Vorgang muss mindestens 5 Mal wiederholt werden
Kerstin Reichert – Getting Data with import.io
Crawler – Speichern
Kerstin Reichert – Getting Data with import.io
Nach abgeschlossenem Training speichern
Kerstin Reichert – Getting Data with import.io
Crawler – Einstellungen
Kerstin Reichert – Getting Data with import.io
Simple vs. Advanced
Zahlreiche Einstellungen möglich:
• Start-Auswahl
• Crawl-Tiefe
• Crawl-Geschwindigkeit
• Cookies
• Ausschließen von Bereichen/URLs
Kerstin Reichert – Getting Data with import.io
Crawler – Ausführen
Kerstin Reichert – Getting Data with import.io
Daten werden gemäß vorherigem Training extrahiert
Kerstin Reichert – Getting Data with import.io
Crawler – Dashboard
Kerstin Reichert – Getting Data with import.io
Erneute Abfrage kann als Single oder Bulk Extract aus Dashboard erfolgen
Kerstin Reichert – Getting Data with import.io
Crawler – Detailseite
Kerstin Reichert – Getting Data with import.io
• Crawler kann wie zuvor beschrieben für Detailseiten trainiert werden
• Vorgang muss auch hier mindestens 5 Mal wiederholt werden
Kerstin Reichert – Getting Data with import.io
Crawler – XPath/RegEx
Kerstin Reichert – Getting Data with import.io
Zu extrahierende Daten können per XPath und RegEx angegeben werden
Kerstin Reichert – Getting Data with import.io
Connector
Kerstin Reichert – Getting Data with import.io
• Macro
• Zeichnet Klicks auf
• Diese können anschliessend im Dashboard ausgeführt
werden (z.B. Suchanfragen)
Kerstin Reichert – Getting Data with import.io
Connector – Record
Kerstin Reichert – Getting Data with import.io
Suchanfrage ausführen und per Record aufzeichnen
Kerstin Reichert – Getting Data with import.io
Connector – Train rows
Kerstin Reichert – Getting Data with import.io
1. Gewünschte Zeilen markieren um Crawler zu trainieren
2. Zu selektierende Daten anwählen und in Spalten anlegen
Kerstin Reichert – Getting Data with import.io
Connector – Dashboard
Kerstin Reichert – Getting Data with import.io
Suchanfrage kann anschließend im Dashboard ausgeführt werden
Kerstin Reichert – Getting Data with import.io
Tool-Auswahl
Kerstin Reichert – Getting Data with import.io
https://www.kumu.io/AlexGimson/importio-tool-chooser
Use Cases
Kerstin Reichert – Getting Data with import.io
Beobachtung Wettbewerb
Kerstin Reichert – Getting Data with import.io
• Gibt es neue Einträge in meiner Branche/Stadt?
• Wie entwickeln sich die Bewertungen?
Kerstin Reichert – Getting Data with import.io
Autoren-Outreach
Kerstin Reichert – Getting Data with import.io
Wer kann zu welchem Thema für mich schreiben?
1. Daten von Online-Portalen sammeln
2. Nach Themen sortieren
3. Autoren für gewünschte Themen finden
4. Kontaktdaten erheben
Kerstin Reichert – Getting Data with import.io
Influencer unter den Autoren
Kerstin Reichert – Getting Data with import.io
Welche Autoren haben die größte Reichweite?
• Social Profile: Anzahl Follower/Fans
• Interaktionen bei Veröffentlichungen
http://www.sharedcount.com/
Kerstin Reichert – Getting Data with import.io
Media-Outreach
Kerstin Reichert – Getting Data with import.io
Wo kann ich meine Inhalte platzieren?
• Welche Themen sind gefragt
• Welches Format (Text/Infografik/Bild)
• Welcher Redakteur ist für meinen Themenbereich der
richtige Ansprechpartner
Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 1
Kerstin Reichert – Getting Data with import.io
Beispiel: Data-Journalism
Äh, nein!
Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 2
Kerstin Reichert – Getting Data with import.io
Besser:
1. Interessante/Aktuelle Themen ausfindig machen
(z.B. mit Hilfe von Google Trends)
2. Daten erheben
3. Auswertung visualisieren
4. Für Publikation aufbereiten
Data journalism is a journalism specialty reflecting the increased role that numerical data is
used in the production and distribution of information in the digital era. It reflects the
increased interaction between content producers (journalist) and several other fields such
as design, computer science and statistics. From the point of view of journalists, it represents
"an overlapping set of competencies drawn from disparate fields".
https://en.wikipedia.org/wiki/Data_journalism
Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 3
Kerstin Reichert – Getting Data with import.io
Import.io ermöglicht Visualisierung mit Hilfe von Drittanbietern:
• https://www.silk.co/product
• https://plot.ly/
Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 4
Kerstin Reichert – Getting Data with import.io
Beispiele:
https://www.import.io/post/8-fantastic-examples-of-data-journalism/
Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 5
Kerstin Reichert – Getting Data with import.io
Kostenloser Service von import.io für Journalisten:
http://import-io.github.io/enterprise-pages/data-journalism/
Kerstin Reichert – Getting Data with import.io
Produktvorstellung
Kerstin Reichert – Getting Data with import.io
Wo finde ich meine Zielgruppe?
z.B. http://www.meetup.com/
1. Plattform nach Themen/Ort auswerten
2. Anhand von Mitgliedergröße priorisieren
Kerstin Reichert – Getting Data with import.io
Speaking Opportunities
Kerstin Reichert – Getting Data with import.io
Wo gibt es Veranstaltungen zu meinem Thema?
z.B. http://www.meetup.com/
1. Plattform nach Themen/Ort sortieren
2. Anhand von Mitgliedergröße priorisieren
3. URLs, Ort, Thema, Organisator und Termine extrahieren
Kerstin Reichert – Getting Data with import.io
Preis- & Sortimentstrategie
Kerstin Reichert – Getting Data with import.io
Wettbewerbsvergleich
• Zu welchem Preis bieten Wettbewerber Produkte an?
• Welche Artikel fehlen in meinem Sortiment?
(z.B. bestimmte Marken)
Eure Ideen?
Kerstin Reichert – Getting Data with import.io
import.io Integration
Kerstin Reichert – Getting Data with import.io
https://www.import.io/partners/our-partners/
Kerstin Reichert – Getting Data with import.io
Diskussionsrunde
Kerstin Reichert – Getting Data with import.io
Wie setzt ihr import.io ein?
Welche weiteren Use Cases sind denkbar?
Weitere Ressourcen
Kerstin Reichert – Getting Data with import.io
Import.io Knowledge Base
Kerstin Reichert – Getting Data with import.io
http://support.import.io/knowledgebase
Kerstin Reichert – Getting Data with import.io
YouTube
Kerstin Reichert – Getting Data with import.io
https://www.youtube.com/user/importiovideos
Kerstin Reichert – Getting Data with import.io
Facebook
Kerstin Reichert – Getting Data with import.io
https://www.facebook.com/groups/333804556787487/
Kerstin Reichert – Getting Data with import.io
Stack Overflow
Kerstin Reichert – Getting Data with import.io
http://stackoverflow.com/questions/tagged/import.io
Kerstin Reichert – Getting Data with import.io
Udemy
Kerstin Reichert – Getting Data with import.io
https://www.udemy.com/learn-web-scraping-in-minutes/
Kerstin Reichert – Getting Data with import.io
Tipp: Extract Conference
Kerstin Reichert – Getting Data with import.io
https://www.import.io/extract-conference/
Kerstin Reichert – Getting Data with import.io
Danke!
hi@kerstinreichert.com
www.kerstinreichert.com
Kontakt:

Weitere ähnliche Inhalte

Andere mochten auch

Fusion y escision de empresas
Fusion y escision de   empresasFusion y escision de   empresas
Fusion y escision de empresasALISSA SAC
 
Fusión, escisión y transformación
Fusión, escisión y transformaciónFusión, escisión y transformación
Fusión, escisión y transformaciónVickyAlva
 
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...Max Lapa Puma
 
Magmatismo y tectónica de placas 2008 9
Magmatismo y tectónica de placas 2008 9Magmatismo y tectónica de placas 2008 9
Magmatismo y tectónica de placas 2008 9Alberto Hernandez
 
Técnicas de fusión intersomática
Técnicas de fusión intersomáticaTécnicas de fusión intersomática
Técnicas de fusión intersomáticaEsaú Ramírez C
 
Lpp crowdfunding support deck
Lpp crowdfunding support deckLpp crowdfunding support deck
Lpp crowdfunding support deckFocusFusion
 
Multi-domain Challenges of Fc Fusion Proteins and Bispecific Antibodies
Multi-domain Challenges of Fc Fusion Proteins and Bispecific AntibodiesMulti-domain Challenges of Fc Fusion Proteins and Bispecific Antibodies
Multi-domain Challenges of Fc Fusion Proteins and Bispecific AntibodiesJin Di, Ph.D.
 
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES Joselyn Castañeda
 
Oracle Fusion & Cloud Applications Overview
Oracle Fusion & Cloud Applications OverviewOracle Fusion & Cloud Applications Overview
Oracle Fusion & Cloud Applications OverviewAhmed El-Demasy
 
Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí
 Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí
Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - ItaguaíAntonio Neto
 
Immobilier : Guy Hoquet dresse le bilan 2015
Immobilier : Guy Hoquet dresse le bilan 2015Immobilier : Guy Hoquet dresse le bilan 2015
Immobilier : Guy Hoquet dresse le bilan 2015Monimmeuble.com
 
Apresentação Life Fusion Bank
Apresentação Life Fusion BankApresentação Life Fusion Bank
Apresentação Life Fusion BankLíder Cristiano
 
Digital in store - point de vente proximite - Retail and Detail Solutions
Digital in store - point de vente proximite - Retail and Detail SolutionsDigital in store - point de vente proximite - Retail and Detail Solutions
Digital in store - point de vente proximite - Retail and Detail SolutionsRetailnDetail
 

Andere mochten auch (17)

Fusion y escision de empresas
Fusion y escision de   empresasFusion y escision de   empresas
Fusion y escision de empresas
 
Fusión, escisión y transformación
Fusión, escisión y transformaciónFusión, escisión y transformación
Fusión, escisión y transformación
 
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...
LEY Nº 26887 - LEY GENERAL DE SOCIEDADES - REORGANIZACION DE SOCIEDADES(Fusió...
 
Magmatismo y tectónica de placas 2008 9
Magmatismo y tectónica de placas 2008 9Magmatismo y tectónica de placas 2008 9
Magmatismo y tectónica de placas 2008 9
 
Punto de fusion
Punto de fusionPunto de fusion
Punto de fusion
 
Técnicas de fusión intersomática
Técnicas de fusión intersomáticaTécnicas de fusión intersomática
Técnicas de fusión intersomática
 
Lpp crowdfunding support deck
Lpp crowdfunding support deckLpp crowdfunding support deck
Lpp crowdfunding support deck
 
La Fusion Froide, L’énergie Gratuit, Extraction d'Énergie du Vide = Pseudo-S...
La Fusion Froide, L’énergie Gratuit, Extraction d'Énergie du Vide  = Pseudo-S...La Fusion Froide, L’énergie Gratuit, Extraction d'Énergie du Vide  = Pseudo-S...
La Fusion Froide, L’énergie Gratuit, Extraction d'Énergie du Vide = Pseudo-S...
 
Multi-domain Challenges of Fc Fusion Proteins and Bispecific Antibodies
Multi-domain Challenges of Fc Fusion Proteins and Bispecific AntibodiesMulti-domain Challenges of Fc Fusion Proteins and Bispecific Antibodies
Multi-domain Challenges of Fc Fusion Proteins and Bispecific Antibodies
 
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES
FUSION, LIQUIDACION Y DISOLUCION DE LAS SOCIEDADES MERCANTILES
 
Oracle Fusion & Cloud Applications Overview
Oracle Fusion & Cloud Applications OverviewOracle Fusion & Cloud Applications Overview
Oracle Fusion & Cloud Applications Overview
 
Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí
 Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí
Fusion Work and Live - Residencial, Comercial e Suítes Hoteleiras - Itaguaí
 
Porcelanas en odontologia
Porcelanas en odontologiaPorcelanas en odontologia
Porcelanas en odontologia
 
Immobilier : Guy Hoquet dresse le bilan 2015
Immobilier : Guy Hoquet dresse le bilan 2015Immobilier : Guy Hoquet dresse le bilan 2015
Immobilier : Guy Hoquet dresse le bilan 2015
 
Apresentação Life Fusion Bank
Apresentação Life Fusion BankApresentação Life Fusion Bank
Apresentação Life Fusion Bank
 
Fusion Tables e Excel PowerMaps
Fusion Tables e Excel PowerMapsFusion Tables e Excel PowerMaps
Fusion Tables e Excel PowerMaps
 
Digital in store - point de vente proximite - Retail and Detail Solutions
Digital in store - point de vente proximite - Retail and Detail SolutionsDigital in store - point de vente proximite - Retail and Detail Solutions
Digital in store - point de vente proximite - Retail and Detail Solutions
 

Getting Data with import.io | SEO CAMPIXX 2016

  • 1. Getting Data with import.io Kerstin Reichert – SEO CAMPIXX 2016
  • 3. Kerstin Reichert – Getting Data with import.io Kontakt Kerstin Reichert – Getting Data with import.io Mail: hi@kerstinreichert.com Website: www.kerstinreichert.com Google+: https://plus.google.com/+KerstinReichert Twitter: @Frau_Reichert Snapchat: frau_reichert
  • 4. Before we get started
  • 5. Kerstin Reichert – Getting Data with import.io Disclaimer Kerstin Reichert – Getting Data with import.io Crawl responsibly! http://support.import.io/knowledgebase/articles/265497-best-practice-in-web-crawling
  • 6. Kerstin Reichert – Getting Data with import.io Zielsetzung Kerstin Reichert – Getting Data with import.io Welche Informationen werden benötigt und wofür?
  • 7. Kerstin Reichert – Getting Data with import.io Wie erreiche ich mein Ziel? Kerstin Reichert – Getting Data with import.io Mit welcher Methode kann ich die relevanten Daten erheben, aufbereiten und in mein gewünschtes Format bringen?
  • 8. An intro to import.io
  • 9. Kerstin Reichert – Getting Data with import.io Web Scraping https://en.wikipedia.org/wiki/Web_scraping "Web scraping (web harvesting or web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully- fledged web browser, such as Mozilla Firefox. Web scraping is closely related to web indexing, which indexes information on the web using a bot or web crawler and is a universal technique adopted by most search engines."
  • 10. Kerstin Reichert – Getting Data with import.io Import.io Kerstin Reichert – Getting Data with import.io
  • 11. Kerstin Reichert – Getting Data with import.io Wie funktioniert import.io? Kerstin Reichert – Getting Data with import.io • Auslesen von Websites • Extrahieren von Daten • Point and Click UI zur Auswahl der Informationen • Algorithmus transferiert Auswahl in strukturiertes Datenformat • Real-time API • No coding • import.io ist kostenlos
  • 12. Kerstin Reichert – Getting Data with import.io Anwendung von import.io Kerstin Reichert – Getting Data with import.io • Daten analysieren • Informationen visualisieren • "Easier than copy and paste"
  • 13. Kerstin Reichert – Getting Data with import.io Download import.io Kerstin Reichert – Getting Data with import.io https://www.import.io/download/download-windows
  • 15. Kerstin Reichert – Getting Data with import.io import.io Tool-Set Kerstin Reichert – Getting Data with import.io
  • 16. Kerstin Reichert – Getting Data with import.io Magic Kerstin Reichert – Getting Data with import.io • Kein Setup notwendig • One-Click Funktion • Extrahiert Daten von angegebenen URLs • Erkennt Paginierung • Eingeschränkter Funktionsumfang
  • 17. Kerstin Reichert – Getting Data with import.io Magic – Crawl starten Kerstin Reichert – Getting Data with import.io • Per One-Click-Funktion werden Daten extrahiert • Paginierung wird erkannt und berücksichtigt
  • 18. Kerstin Reichert – Getting Data with import.io Magic – API speichern Kerstin Reichert – Getting Data with import.io • Abfrage kann nach Speichern im Dashboard durchgeführt werden • Single und Bulk Extract möglich
  • 19. Kerstin Reichert – Getting Data with import.io Magic – CSV Download Kerstin Reichert – Getting Data with import.io Download ist als CSV oder JSON verfügbar
  • 20. Kerstin Reichert – Getting Data with import.io Extractor Kerstin Reichert – Getting Data with import.io • Tool-Download notwendig • Point and Click UI • Bulk-Extract möglich
  • 21. Kerstin Reichert – Getting Data with import.io Extractor- URL Anagbe Kerstin Reichert – Getting Data with import.io Vom Browser zum Extractor (ON/OFF)
  • 22. Kerstin Reichert – Getting Data with import.io Extractor - Formatwahl Kerstin Reichert – Getting Data with import.io Eine vs. viele Zeilen
  • 23. Kerstin Reichert – Getting Data with import.io Extractor - Datenselektion Kerstin Reichert – Getting Data with import.io Datenauswahl per Click
  • 24. Kerstin Reichert – Getting Data with import.io Extractor - XPath & RegEx Kerstin Reichert – Getting Data with import.io Advanced Settings – Xpath & RegEx
  • 25. Kerstin Reichert – Getting Data with import.io Datenselektion per XPath Kerstin Reichert – Getting Data with import.io z.B. bei Drop-Downs
  • 26. Kerstin Reichert – Getting Data with import.io Copy XPath Kerstin Reichert – Getting Data with import.io Genaue Pfadangabe der zu extrahierenden Daten Beispiel: //*[@id="listProductSizes"]
  • 27. Kerstin Reichert – Getting Data with import.io Learning XPath Kerstin Reichert – Getting Data with import.io http://www.w3schools.com/xsl/xpath_intro.asp
  • 28. Kerstin Reichert – Getting Data with import.io Datenauswahl per RegEx Kerstin Reichert – Getting Data with import.io Per XPath generierte Daten präzisieren / bereinigen
  • 29. Kerstin Reichert – Getting Data with import.io Learning RegEx Kerstin Reichert – Getting Data with import.io https://www.codeschool.com/courses/breaking-the-ice-with-regular-expressions
  • 30. Kerstin Reichert – Getting Data with import.io Xpath &RegEx Cheat Sheet Kerstin Reichert – Getting Data with import.io https://docs.google.com/document/d/1DJXHTqRMyaOwON_a7J9tQIFeKx5e- HNU5uyHS7GdYeE/edit#heading=h.gw71hsqkt4kw
  • 31. Kerstin Reichert – Getting Data with import.io Extractor - Bulk-Extract Kerstin Reichert – Getting Data with import.io Per Bulk Extract können URL-Listen für den Crawl hinterlegt werden
  • 32. Kerstin Reichert – Getting Data with import.io Crawler Kerstin Reichert – Getting Data with import.io • Automatisierter Extractor • Falls URL nicht bekannt • Wird trainiert • Mindestens 5 Beispiele notwendig!
  • 33. Kerstin Reichert – Getting Data with import.io Crawler – Training Kerstin Reichert – Getting Data with import.io Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)
  • 34. Kerstin Reichert – Getting Data with import.io Crawler – Datenauswahl Kerstin Reichert – Getting Data with import.io • Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite) • Markieren der zu extrahierenden Informationen • Der Vorgang muss mindestens 5 Mal wiederholt werden
  • 35. Kerstin Reichert – Getting Data with import.io Crawler – Speichern Kerstin Reichert – Getting Data with import.io Nach abgeschlossenem Training speichern
  • 36. Kerstin Reichert – Getting Data with import.io Crawler – Einstellungen Kerstin Reichert – Getting Data with import.io Simple vs. Advanced Zahlreiche Einstellungen möglich: • Start-Auswahl • Crawl-Tiefe • Crawl-Geschwindigkeit • Cookies • Ausschließen von Bereichen/URLs
  • 37. Kerstin Reichert – Getting Data with import.io Crawler – Ausführen Kerstin Reichert – Getting Data with import.io Daten werden gemäß vorherigem Training extrahiert
  • 38. Kerstin Reichert – Getting Data with import.io Crawler – Dashboard Kerstin Reichert – Getting Data with import.io Erneute Abfrage kann als Single oder Bulk Extract aus Dashboard erfolgen
  • 39. Kerstin Reichert – Getting Data with import.io Crawler – Detailseite Kerstin Reichert – Getting Data with import.io • Crawler kann wie zuvor beschrieben für Detailseiten trainiert werden • Vorgang muss auch hier mindestens 5 Mal wiederholt werden
  • 40. Kerstin Reichert – Getting Data with import.io Crawler – XPath/RegEx Kerstin Reichert – Getting Data with import.io Zu extrahierende Daten können per XPath und RegEx angegeben werden
  • 41. Kerstin Reichert – Getting Data with import.io Connector Kerstin Reichert – Getting Data with import.io • Macro • Zeichnet Klicks auf • Diese können anschliessend im Dashboard ausgeführt werden (z.B. Suchanfragen)
  • 42. Kerstin Reichert – Getting Data with import.io Connector – Record Kerstin Reichert – Getting Data with import.io Suchanfrage ausführen und per Record aufzeichnen
  • 43. Kerstin Reichert – Getting Data with import.io Connector – Train rows Kerstin Reichert – Getting Data with import.io 1. Gewünschte Zeilen markieren um Crawler zu trainieren 2. Zu selektierende Daten anwählen und in Spalten anlegen
  • 44. Kerstin Reichert – Getting Data with import.io Connector – Dashboard Kerstin Reichert – Getting Data with import.io Suchanfrage kann anschließend im Dashboard ausgeführt werden
  • 45. Kerstin Reichert – Getting Data with import.io Tool-Auswahl Kerstin Reichert – Getting Data with import.io https://www.kumu.io/AlexGimson/importio-tool-chooser
  • 47. Kerstin Reichert – Getting Data with import.io Beobachtung Wettbewerb Kerstin Reichert – Getting Data with import.io • Gibt es neue Einträge in meiner Branche/Stadt? • Wie entwickeln sich die Bewertungen?
  • 48. Kerstin Reichert – Getting Data with import.io Autoren-Outreach Kerstin Reichert – Getting Data with import.io Wer kann zu welchem Thema für mich schreiben? 1. Daten von Online-Portalen sammeln 2. Nach Themen sortieren 3. Autoren für gewünschte Themen finden 4. Kontaktdaten erheben
  • 49. Kerstin Reichert – Getting Data with import.io Influencer unter den Autoren Kerstin Reichert – Getting Data with import.io Welche Autoren haben die größte Reichweite? • Social Profile: Anzahl Follower/Fans • Interaktionen bei Veröffentlichungen http://www.sharedcount.com/
  • 50. Kerstin Reichert – Getting Data with import.io Media-Outreach Kerstin Reichert – Getting Data with import.io Wo kann ich meine Inhalte platzieren? • Welche Themen sind gefragt • Welches Format (Text/Infografik/Bild) • Welcher Redakteur ist für meinen Themenbereich der richtige Ansprechpartner
  • 51. Kerstin Reichert – Getting Data with import.io Content-Marketing – Part 1 Kerstin Reichert – Getting Data with import.io Beispiel: Data-Journalism Äh, nein!
  • 52. Kerstin Reichert – Getting Data with import.io Content-Marketing – Part 2 Kerstin Reichert – Getting Data with import.io Besser: 1. Interessante/Aktuelle Themen ausfindig machen (z.B. mit Hilfe von Google Trends) 2. Daten erheben 3. Auswertung visualisieren 4. Für Publikation aufbereiten Data journalism is a journalism specialty reflecting the increased role that numerical data is used in the production and distribution of information in the digital era. It reflects the increased interaction between content producers (journalist) and several other fields such as design, computer science and statistics. From the point of view of journalists, it represents "an overlapping set of competencies drawn from disparate fields". https://en.wikipedia.org/wiki/Data_journalism
  • 53. Kerstin Reichert – Getting Data with import.io Content-Marketing – Part 3 Kerstin Reichert – Getting Data with import.io Import.io ermöglicht Visualisierung mit Hilfe von Drittanbietern: • https://www.silk.co/product • https://plot.ly/
  • 54. Kerstin Reichert – Getting Data with import.io Content-Marketing – Part 4 Kerstin Reichert – Getting Data with import.io Beispiele: https://www.import.io/post/8-fantastic-examples-of-data-journalism/
  • 55. Kerstin Reichert – Getting Data with import.io Content-Marketing – Part 5 Kerstin Reichert – Getting Data with import.io Kostenloser Service von import.io für Journalisten: http://import-io.github.io/enterprise-pages/data-journalism/
  • 56. Kerstin Reichert – Getting Data with import.io Produktvorstellung Kerstin Reichert – Getting Data with import.io Wo finde ich meine Zielgruppe? z.B. http://www.meetup.com/ 1. Plattform nach Themen/Ort auswerten 2. Anhand von Mitgliedergröße priorisieren
  • 57. Kerstin Reichert – Getting Data with import.io Speaking Opportunities Kerstin Reichert – Getting Data with import.io Wo gibt es Veranstaltungen zu meinem Thema? z.B. http://www.meetup.com/ 1. Plattform nach Themen/Ort sortieren 2. Anhand von Mitgliedergröße priorisieren 3. URLs, Ort, Thema, Organisator und Termine extrahieren
  • 58. Kerstin Reichert – Getting Data with import.io Preis- & Sortimentstrategie Kerstin Reichert – Getting Data with import.io Wettbewerbsvergleich • Zu welchem Preis bieten Wettbewerber Produkte an? • Welche Artikel fehlen in meinem Sortiment? (z.B. bestimmte Marken)
  • 60. Kerstin Reichert – Getting Data with import.io import.io Integration Kerstin Reichert – Getting Data with import.io https://www.import.io/partners/our-partners/
  • 61. Kerstin Reichert – Getting Data with import.io Diskussionsrunde Kerstin Reichert – Getting Data with import.io Wie setzt ihr import.io ein? Welche weiteren Use Cases sind denkbar?
  • 63. Kerstin Reichert – Getting Data with import.io Import.io Knowledge Base Kerstin Reichert – Getting Data with import.io http://support.import.io/knowledgebase
  • 64. Kerstin Reichert – Getting Data with import.io YouTube Kerstin Reichert – Getting Data with import.io https://www.youtube.com/user/importiovideos
  • 65. Kerstin Reichert – Getting Data with import.io Facebook Kerstin Reichert – Getting Data with import.io https://www.facebook.com/groups/333804556787487/
  • 66. Kerstin Reichert – Getting Data with import.io Stack Overflow Kerstin Reichert – Getting Data with import.io http://stackoverflow.com/questions/tagged/import.io
  • 67. Kerstin Reichert – Getting Data with import.io Udemy Kerstin Reichert – Getting Data with import.io https://www.udemy.com/learn-web-scraping-in-minutes/
  • 68. Kerstin Reichert – Getting Data with import.io Tipp: Extract Conference Kerstin Reichert – Getting Data with import.io https://www.import.io/extract-conference/
  • 69. Kerstin Reichert – Getting Data with import.io Danke!