1. Open Source Search Engines
Veit Schiele
cusy GmbH, Berlin
de.slideshare.net/cusyio/open-source-search-engines
2. Veit Schiele
• Gründer und Geschäftsführer
der Cusy GmbH, einer
datenschutzkonformen Entwicklungs-
und Betriebsplattform
• Enge Zusammenarbeit mit der
Gesellschaft für Datenschutz und
Datensicherheit e.V. (GDD)
you + me + cusy
5. Search Appliances
Alternative Search Appliances
Pros und Cons
+ Einfach und schnell bereitgestellt
+ Geringe Wartungs- und Pflegeaufwände
- Keine Redundanz, kein Backup
- Häufig sind Konfigurationsänderungen
nur produktiv zu testen
- Monitoring der Lizenzauslastung erforderlich
7. Third-party hosted services
Third-party hosted services
Pros und Cons
+ Einfach und schnell bereitgestellt für öffentlich
zugängliche Informationen
+ Keine Wartungs- und Pflegeaufwände
- Einbindung von internen Services, Dateisystemen etc.
schwierig bis unmöglich
- Monitoring der Lizenzauslastung erforderlich
9. Self-hosted services
Self-hosted services
Pros und Cons
+ Einbindung von internen Services, Dateisystemen etc.
möglich
- Erhöhte Aufwände in Installation, Konfiguration und
Pflege
- Erweiterbar, wenn auch meist mit erheblichem
Aufwand
10. Self-hosted services
1. Suchmaschine auf Basis
von Apache Lucene
1. Elasticsearch
2. Solr
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:
11. Self-hosted services
2. Crawler
Hierfür bieten sich z.B.
folgende Lösungen an:
1. Scrapy
1. scrapy-elasticsearch
2. Apache Nutch
3. Elasticsearch River Web
Search Appliances bestehen im Wesentlichen aus zwei
Komponenten:
12. Anbindung von Drittsystemen
Self-hosted services: Enhancements
z.B. mit Apache ManifoldCF
• Microsoft Sharepoint
• EMC Documentum
• DropBox
• RSS-Feeds
• E-Mail
…
13. Anbindung von Drittsystemen
Self-hosted services: Enhancements
oder für Elasticsearch 5.2
• FS Crawler
• IMAP/POP3/Mail importer
• …
• s.a. Elasticsearch Plugins
and Integrations
16. Beispiel: Fraunhofer ISE – 2. Datenhaltung
Fraunhofer ISE – 2. Datenhaltung
• Jedes Repository besitzt eigenes
Datenmodell
• Gemeinsame Abfragen über
Wildcards
• Aliasses / Pipelines
17. Beispiel: Fraunhofer ISE – 3. Sicherheit
Fraunhofer ISE – 3. Autorisierung
• Jedes Repository besitzt eigenes
Authorisierungsmodell
• Informationen z.T. aus dem
Certification Authority Server
• Security Proxy überprüft
Autorisierung vor dem Ausliefern
18. Completeness of Vision
AbilitytoExecute
As of August 2015
Challangers
Niche Players
Leaders
Visionaries
LucidworksLucidworks
Expert System
Recommind
BA Insight
IBM
IHS
Coveo
Sinequa
HP
Mindbreeze
Google
Dassault Systèmes
Attivio
Lexmark
Squiz
Positionierung
Gartner. Magic Quadrant
19. What we can do for you
What we can do for you
• datenschutzkonform Hosten
auf der Cusy-Plattform
• Installation, Wartung und Pflege
auf ihren Maschinen
• Beratung, Anpassung und individuelle
Weiterentwicklung