headline bullet Enterprise Search mit Lucene und Solr

Kosten reduzieren und Produktivität steigern

Mitarbeiter verbringen bis zu 35% ihrer Arbeitszeit mit der Suche nach Informationen (Wissenmanagement-Empirie), denn die Datenquellen wie Intranet, E-Mail, ERP-, Dokumenten-Management-Systemen usw. sind in aller Regel weder zentralisiert noch homogen. Eine unternehmensinterne Suchfunktion virtualisiert solche denzentralen IT-Strukturen und stellt einen allgemeinen Suchindex bereit.

Lucene / Solr - Open Source Enterprise Search

Lucene ist ein Projekt der Apache Software Foundation. Die in Java entwickelte Open Source Search Library ist performant, skalierbar und erweiterbar. Das Apache-Projekt Solr steuert unerlässliche Frontend-Funktionalität bei.Das Tika-Toolkit enthält die Parser-Bibliotheken zur Indizierung verschiedenster Dokumentenformate.

Lucene Solr Tika
Apache Lucene - Features Apache Solr - Features Apache Tika
  • Suche mit Stichworten, Umgebungssuche, Boolsche Operatoren, +/- Anfragen, phonetische Suche, Wildcards, Feldsuche, Gewichtungen, Rechtschreibkorrektur
  • Relevanz / Ranking und Suche nach ähnlichen Dokumenten
  • Hervorhebungen in Trefferliste, dynamische Zusammenfassungen, Sortierungen nach beliebigen Kriterien
  • Portabilität (Index kann auf unterschiedliche Systeme portiert weden)
  • Skalierbarkeit (Referenzen: LinkedIn, IBM, Apple, MySpace)
  • Schnelle inkrementelle Indizierung
  • Optimiert für hohe Last
  • standardisierte, offene Schnittstellen: XML, JSON, HTTP
  • Administration über Webinterface
  • Server Statistiken verfügbar über JMX
  • Skalierbar durch Replikation
  • Erweiterbar duch Plugin-Architektur
  • Microsoft Excel, Word, PowerPoint, Visio und Outlook
  • Komprimierte Datien, wie gzip, bzip2, tar und zip
  • XML und HTML
  • Java Class und Java Jar
  • MP3
  • OpenDocument
  • Plain Text und RTF
  • PDF
  • Unterschiedliche Bildformate

Apache Lucene Stack

Leistungsmerkmale

  • Skalierbarkeit: Die Standardinstallation indiziert erfahrungsgemäss mindestens 1.000 Dokumente pro Minute, kann 10 Millionen Dokumente im Volltext bereitstellen und gleichzeitig einige Dutzend Benutzeranfragen beantworten. Beansprucht das Frontend mehr Ressourcen, bietet sich eine Master-Slave-Replikation an: Der Master indiziert, die Slaves bedienen die Benutzer. Bei grösseren Dartenmengen ist sharding über mehrere Master hinweg möglich. Eine weitere Möglichkeit zur Lastreduktion ist die Auslagerung des Volltexts in externe Datenspeicher.
  • Flexibles Ranking: Sowohl bei der Konfiguration des Schemas als auch für jedes einzelne Dokument können positive und negative Boostfaktoren definiert werden.
  • Facettierte Suche: Faceted Browsing (Suchbeginn mit Facettenauswahl) sowie Faceted Search (Suchbeginn mit Freitext und Eingrenzung über Facetten) sind Standardfeatures, wobei sowohl absolute Werte, als auch Bereiche (Zeitraum, Preisspanne) als Facetten verwendet werden können.
  • Flexible Kommunikationsformate: Solr unterstütztin beide Richtungen XML, JSON, PHP Serialisierung und CVS. Weitere Formate können hinzugefügt werden.
  • Import gängiger Dokumentenformate (OpenOffice, MS Office, Metadaten von Multimediadateien, Dateiarchive). Ein eventbasierter DataImportHandler kann zu indizierende Dokumente aus Datenbanken und von Webservices abholen. Weitere ImportFilter können in Form von Plugins hinzugefügt werden.

Strategie zur Einführung von Enterprise Search

YMC unterstützt die Einführung von Lucene / Solr in Ihrem Unternehmen von der Beratung bis zur Ergebnisevaluation und dem Betrieb der Lösung. Dabei hat sich die folgende Vorgehensweise bewährt:

  1. IST-Analyse
    Die bestehenden Suchgewohnheiten werden durch Mitarbeiterbefragung und Experten strukturiert analysiert und dokumentiert (Suchmuster, -verhalten, Qualität der Suchtreffer, Usability etc.).
  2. Anforderungsanalyse
    Der User steht im Mittelpunkt, er legt mit seinen Anforderungen und Informationsbedürfnissen die Messlatte für die spätere Ergebnisevaluation fest. In einem Workshop erfolgt die Zielformulierung der angestrebten Lösung und die Ausarbeitung der Anforderungskriterien.
  3. Detailkonzept
    Das Detailkonzept beschreibt die technische Architektur und Integration in die bestehende IT-Landschaft, die Inhaltestruktur der Suche (z.B. Klassifikation, Zugriffsrechte etc.) und die Search-Usability mit den Suchmasken und Funktionen.
  4. Umsetzung, Ergebnisevaluation und Finetuning
    Nach der Implementation folgt die Ergebnisevaluation anhand von Trefferlisten und Benutzer-Feedback. Die Anpassung der Parametriesierung dient der Verbesserung der Suchergebnisse.

Sie haben Fragen zu Lucene / Solr? Wir freuen uns auf Nachricht von Ihnen!