Slide-Deck zur Session "Getting Data with import.io" im Rahmen der SEO CAMPIXX 2016 in Berlin.
Der Vortrag gibt eine Einführung zu import.io und den derzeit verfügbaren Tools: Magic, Extractor, Crawler und Connector, beschreibt die Vorgehensweise und zeigt Beispiele für den Einsatz mit Bezug auf SEO und Online Marketing.
5. Kerstin Reichert – Getting Data with import.io
Disclaimer
Kerstin Reichert – Getting Data with import.io
Crawl responsibly!
http://support.import.io/knowledgebase/articles/265497-best-practice-in-web-crawling
6. Kerstin Reichert – Getting Data with import.io
Zielsetzung
Kerstin Reichert – Getting Data with import.io
Welche Informationen werden benötigt und wofür?
7. Kerstin Reichert – Getting Data with import.io
Wie erreiche ich mein Ziel?
Kerstin Reichert – Getting Data with import.io
Mit welcher Methode kann ich die relevanten Daten
erheben, aufbereiten und in mein gewünschtes Format
bringen?
9. Kerstin Reichert – Getting Data with import.io
Web Scraping
https://en.wikipedia.org/wiki/Web_scraping
"Web scraping (web harvesting or web data extraction) is a computer software
technique of extracting information from websites. Usually, such software
programs simulate human exploration of the World Wide Web by either
implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-
fledged web browser, such as Mozilla Firefox.
Web scraping is closely related to web indexing, which indexes information on
the web using a bot or web crawler and is a universal technique adopted by most
search engines."
10. Kerstin Reichert – Getting Data with import.io
Import.io
Kerstin Reichert – Getting Data with import.io
11. Kerstin Reichert – Getting Data with import.io
Wie funktioniert import.io?
Kerstin Reichert – Getting Data with import.io
• Auslesen von Websites
• Extrahieren von Daten
• Point and Click UI zur Auswahl der Informationen
• Algorithmus transferiert Auswahl in strukturiertes
Datenformat
• Real-time API
• No coding
• import.io ist kostenlos
12. Kerstin Reichert – Getting Data with import.io
Anwendung von import.io
Kerstin Reichert – Getting Data with import.io
• Daten analysieren
• Informationen visualisieren
• "Easier than copy and paste"
13. Kerstin Reichert – Getting Data with import.io
Download import.io
Kerstin Reichert – Getting Data with import.io
https://www.import.io/download/download-windows
15. Kerstin Reichert – Getting Data with import.io
import.io Tool-Set
Kerstin Reichert – Getting Data with import.io
16. Kerstin Reichert – Getting Data with import.io
Magic
Kerstin Reichert – Getting Data with import.io
• Kein Setup notwendig
• One-Click Funktion
• Extrahiert Daten von angegebenen URLs
• Erkennt Paginierung
• Eingeschränkter Funktionsumfang
17. Kerstin Reichert – Getting Data with import.io
Magic – Crawl starten
Kerstin Reichert – Getting Data with import.io
• Per One-Click-Funktion werden Daten extrahiert
• Paginierung wird erkannt und berücksichtigt
18. Kerstin Reichert – Getting Data with import.io
Magic – API speichern
Kerstin Reichert – Getting Data with import.io
• Abfrage kann nach Speichern im Dashboard durchgeführt werden
• Single und Bulk Extract möglich
19. Kerstin Reichert – Getting Data with import.io
Magic – CSV Download
Kerstin Reichert – Getting Data with import.io
Download ist als CSV oder JSON verfügbar
20. Kerstin Reichert – Getting Data with import.io
Extractor
Kerstin Reichert – Getting Data with import.io
• Tool-Download notwendig
• Point and Click UI
• Bulk-Extract möglich
21. Kerstin Reichert – Getting Data with import.io
Extractor- URL Anagbe
Kerstin Reichert – Getting Data with import.io
Vom Browser zum Extractor (ON/OFF)
22. Kerstin Reichert – Getting Data with import.io
Extractor - Formatwahl
Kerstin Reichert – Getting Data with import.io
Eine vs. viele Zeilen
23. Kerstin Reichert – Getting Data with import.io
Extractor - Datenselektion
Kerstin Reichert – Getting Data with import.io
Datenauswahl per Click
24. Kerstin Reichert – Getting Data with import.io
Extractor - XPath & RegEx
Kerstin Reichert – Getting Data with import.io
Advanced Settings – Xpath & RegEx
25. Kerstin Reichert – Getting Data with import.io
Datenselektion per XPath
Kerstin Reichert – Getting Data with import.io
z.B. bei Drop-Downs
26. Kerstin Reichert – Getting Data with import.io
Copy XPath
Kerstin Reichert – Getting Data with import.io
Genaue Pfadangabe der zu extrahierenden Daten
Beispiel: //*[@id="listProductSizes"]
27. Kerstin Reichert – Getting Data with import.io
Learning XPath
Kerstin Reichert – Getting Data with import.io
http://www.w3schools.com/xsl/xpath_intro.asp
28. Kerstin Reichert – Getting Data with import.io
Datenauswahl per RegEx
Kerstin Reichert – Getting Data with import.io
Per XPath generierte Daten präzisieren / bereinigen
29. Kerstin Reichert – Getting Data with import.io
Learning RegEx
Kerstin Reichert – Getting Data with import.io
https://www.codeschool.com/courses/breaking-the-ice-with-regular-expressions
30. Kerstin Reichert – Getting Data with import.io
Xpath &RegEx Cheat Sheet
Kerstin Reichert – Getting Data with import.io
https://docs.google.com/document/d/1DJXHTqRMyaOwON_a7J9tQIFeKx5e-
HNU5uyHS7GdYeE/edit#heading=h.gw71hsqkt4kw
31. Kerstin Reichert – Getting Data with import.io
Extractor - Bulk-Extract
Kerstin Reichert – Getting Data with import.io
Per Bulk Extract können URL-Listen für den Crawl hinterlegt werden
32. Kerstin Reichert – Getting Data with import.io
Crawler
Kerstin Reichert – Getting Data with import.io
• Automatisierter Extractor
• Falls URL nicht bekannt
• Wird trainiert
• Mindestens 5 Beispiele notwendig!
33. Kerstin Reichert – Getting Data with import.io
Crawler – Training
Kerstin Reichert – Getting Data with import.io
Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)
34. Kerstin Reichert – Getting Data with import.io
Crawler – Datenauswahl
Kerstin Reichert – Getting Data with import.io
• Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)
• Markieren der zu extrahierenden Informationen
• Der Vorgang muss mindestens 5 Mal wiederholt werden
35. Kerstin Reichert – Getting Data with import.io
Crawler – Speichern
Kerstin Reichert – Getting Data with import.io
Nach abgeschlossenem Training speichern
36. Kerstin Reichert – Getting Data with import.io
Crawler – Einstellungen
Kerstin Reichert – Getting Data with import.io
Simple vs. Advanced
Zahlreiche Einstellungen möglich:
• Start-Auswahl
• Crawl-Tiefe
• Crawl-Geschwindigkeit
• Cookies
• Ausschließen von Bereichen/URLs
37. Kerstin Reichert – Getting Data with import.io
Crawler – Ausführen
Kerstin Reichert – Getting Data with import.io
Daten werden gemäß vorherigem Training extrahiert
38. Kerstin Reichert – Getting Data with import.io
Crawler – Dashboard
Kerstin Reichert – Getting Data with import.io
Erneute Abfrage kann als Single oder Bulk Extract aus Dashboard erfolgen
39. Kerstin Reichert – Getting Data with import.io
Crawler – Detailseite
Kerstin Reichert – Getting Data with import.io
• Crawler kann wie zuvor beschrieben für Detailseiten trainiert werden
• Vorgang muss auch hier mindestens 5 Mal wiederholt werden
40. Kerstin Reichert – Getting Data with import.io
Crawler – XPath/RegEx
Kerstin Reichert – Getting Data with import.io
Zu extrahierende Daten können per XPath und RegEx angegeben werden
41. Kerstin Reichert – Getting Data with import.io
Connector
Kerstin Reichert – Getting Data with import.io
• Macro
• Zeichnet Klicks auf
• Diese können anschliessend im Dashboard ausgeführt
werden (z.B. Suchanfragen)
42. Kerstin Reichert – Getting Data with import.io
Connector – Record
Kerstin Reichert – Getting Data with import.io
Suchanfrage ausführen und per Record aufzeichnen
43. Kerstin Reichert – Getting Data with import.io
Connector – Train rows
Kerstin Reichert – Getting Data with import.io
1. Gewünschte Zeilen markieren um Crawler zu trainieren
2. Zu selektierende Daten anwählen und in Spalten anlegen
44. Kerstin Reichert – Getting Data with import.io
Connector – Dashboard
Kerstin Reichert – Getting Data with import.io
Suchanfrage kann anschließend im Dashboard ausgeführt werden
45. Kerstin Reichert – Getting Data with import.io
Tool-Auswahl
Kerstin Reichert – Getting Data with import.io
https://www.kumu.io/AlexGimson/importio-tool-chooser
47. Kerstin Reichert – Getting Data with import.io
Beobachtung Wettbewerb
Kerstin Reichert – Getting Data with import.io
• Gibt es neue Einträge in meiner Branche/Stadt?
• Wie entwickeln sich die Bewertungen?
48. Kerstin Reichert – Getting Data with import.io
Autoren-Outreach
Kerstin Reichert – Getting Data with import.io
Wer kann zu welchem Thema für mich schreiben?
1. Daten von Online-Portalen sammeln
2. Nach Themen sortieren
3. Autoren für gewünschte Themen finden
4. Kontaktdaten erheben
49. Kerstin Reichert – Getting Data with import.io
Influencer unter den Autoren
Kerstin Reichert – Getting Data with import.io
Welche Autoren haben die größte Reichweite?
• Social Profile: Anzahl Follower/Fans
• Interaktionen bei Veröffentlichungen
http://www.sharedcount.com/
50. Kerstin Reichert – Getting Data with import.io
Media-Outreach
Kerstin Reichert – Getting Data with import.io
Wo kann ich meine Inhalte platzieren?
• Welche Themen sind gefragt
• Welches Format (Text/Infografik/Bild)
• Welcher Redakteur ist für meinen Themenbereich der
richtige Ansprechpartner
51. Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 1
Kerstin Reichert – Getting Data with import.io
Beispiel: Data-Journalism
Äh, nein!
52. Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 2
Kerstin Reichert – Getting Data with import.io
Besser:
1. Interessante/Aktuelle Themen ausfindig machen
(z.B. mit Hilfe von Google Trends)
2. Daten erheben
3. Auswertung visualisieren
4. Für Publikation aufbereiten
Data journalism is a journalism specialty reflecting the increased role that numerical data is
used in the production and distribution of information in the digital era. It reflects the
increased interaction between content producers (journalist) and several other fields such
as design, computer science and statistics. From the point of view of journalists, it represents
"an overlapping set of competencies drawn from disparate fields".
https://en.wikipedia.org/wiki/Data_journalism
53. Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 3
Kerstin Reichert – Getting Data with import.io
Import.io ermöglicht Visualisierung mit Hilfe von Drittanbietern:
• https://www.silk.co/product
• https://plot.ly/
54. Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 4
Kerstin Reichert – Getting Data with import.io
Beispiele:
https://www.import.io/post/8-fantastic-examples-of-data-journalism/
55. Kerstin Reichert – Getting Data with import.io
Content-Marketing – Part 5
Kerstin Reichert – Getting Data with import.io
Kostenloser Service von import.io für Journalisten:
http://import-io.github.io/enterprise-pages/data-journalism/
56. Kerstin Reichert – Getting Data with import.io
Produktvorstellung
Kerstin Reichert – Getting Data with import.io
Wo finde ich meine Zielgruppe?
z.B. http://www.meetup.com/
1. Plattform nach Themen/Ort auswerten
2. Anhand von Mitgliedergröße priorisieren
57. Kerstin Reichert – Getting Data with import.io
Speaking Opportunities
Kerstin Reichert – Getting Data with import.io
Wo gibt es Veranstaltungen zu meinem Thema?
z.B. http://www.meetup.com/
1. Plattform nach Themen/Ort sortieren
2. Anhand von Mitgliedergröße priorisieren
3. URLs, Ort, Thema, Organisator und Termine extrahieren
58. Kerstin Reichert – Getting Data with import.io
Preis- & Sortimentstrategie
Kerstin Reichert – Getting Data with import.io
Wettbewerbsvergleich
• Zu welchem Preis bieten Wettbewerber Produkte an?
• Welche Artikel fehlen in meinem Sortiment?
(z.B. bestimmte Marken)
60. Kerstin Reichert – Getting Data with import.io
import.io Integration
Kerstin Reichert – Getting Data with import.io
https://www.import.io/partners/our-partners/
61. Kerstin Reichert – Getting Data with import.io
Diskussionsrunde
Kerstin Reichert – Getting Data with import.io
Wie setzt ihr import.io ein?
Welche weiteren Use Cases sind denkbar?
63. Kerstin Reichert – Getting Data with import.io
Import.io Knowledge Base
Kerstin Reichert – Getting Data with import.io
http://support.import.io/knowledgebase
64. Kerstin Reichert – Getting Data with import.io
YouTube
Kerstin Reichert – Getting Data with import.io
https://www.youtube.com/user/importiovideos
65. Kerstin Reichert – Getting Data with import.io
Facebook
Kerstin Reichert – Getting Data with import.io
https://www.facebook.com/groups/333804556787487/
66. Kerstin Reichert – Getting Data with import.io
Stack Overflow
Kerstin Reichert – Getting Data with import.io
http://stackoverflow.com/questions/tagged/import.io
67. Kerstin Reichert – Getting Data with import.io
Udemy
Kerstin Reichert – Getting Data with import.io
https://www.udemy.com/learn-web-scraping-in-minutes/
68. Kerstin Reichert – Getting Data with import.io
Tipp: Extract Conference
Kerstin Reichert – Getting Data with import.io
https://www.import.io/extract-conference/