Data Science & Machine Learning

Maschinelles Lernen für eine effiziente Dokumentenklassifizierung

Unser Kunde, ein multinationales Unternehmen des Gesundheitswesens, verarbeitet eine große Anzahl von Dokumenten wie Publikationen, Schulungsunterlagen, Broschüren und Präsentationen. Jedes Dokument muss verschiedenen Vertriebsmitarbeitern zur Verfügung gestellt werden, die es dann gezielt an Kunden und andere Beteiligte weitergeben. Das Auffinden und Lokalisieren bestimmter Dokumente oder einer Kategorie von Dokumenten im alten AWS-System erfordert manuelles Tagging, was fehleranfällig und zeitaufwändig ist.

Der Kunde beauftragte FELD M, ihn bei der Lösung des Problems zu unterstützen.

Hauptziele:

  • Entwicklung und Bewertung von Modellen für die Sprachverarbeitung (Natural Language Processing) und weiteren Modellen für maschinelles Lernen (ML), sowohl Black-Box als auch individuell entwickelte, für die Kennzeichnung von Dokumenten
  • Bildextraktion aus PDFs und One-shot Klassifizierung von Etiketten mit dem CLIP-Modell
  • Eine Pipeline in AWS, die in der Lage ist, Tausende von Dokumenten im Handumdrehen zu verarbeiten
data_pipeline

Unser Ansatz

Das FELD M-Team kam zu dem Schluss, dass der Aufbau einer automatisierten Datenpipeline der Schlüssel zur Lösung des Problems ist. Diese Pipeline musste die komplizierten Anforderungen der bestehenden Tagging-Taxonomie effizient bewältigen. Darüber hinaus war es von entscheidender Bedeutung, dass sie sich auf der Grundlage von Nutzereingaben und -feedback weiterentwickelt und so die Genauigkeit der Tags ständig verbessert. Auf diese Weise konnte eine kontinuierliche Feedbackschleife eingesetzt werden. 

Das Gesamtziel des Projekts war die Implementierung und Bereitstellung einer Pipeline, die die entwickelten Modelle nutzt und die Vorhersageergebnisse in andere Dienste integriert (z. B. als Funktionen für eine Recommendation Engine oder zur Optimierung von Dashboards).

Entwicklung eines Datenprodukts von der Idee bis zur Umsetzung

Nach den Design Thinking-Prinzipien startete das Data Product Team von FELD M mit einer Kombination aus Desk Research, Interviews mit Stakeholdern und Workshops. Dies ermöglichte dem Team ein tiefes Verständnis der verschiedenen Geschäftsanforderungen, der verschiedenen Use Cases für getaggte Inhalte und der Taxonomie für das Tagging von Dokumenten. Auf dieser Basis konnte ein Konzept entwickelt werden, wie potenzielle Lösungen von den Endnutzern eingesetzt werden können. Unter Einbeziehung von Experten aus den Bereichen Data Science und Data Engineering wurde ein maßgeschneidertes Konzept für eine Komplettlösung mit verschiedenen maschinellen Lernmodellen, einer Bildklassifizierungs- und Verarbeitungspipeline sowie einer Benutzeroberfläche entwickelt.

Unser neues Modell war AWS Comprehend in mehreren Fällen überlegen

FELD M nutzte modernste Deep-Learning-basierte Computer-Vision-Techniken, um aus den in den Dokumenten enthaltenen Bildern Labels zu extrahieren. Wir beschlossen, CLIP als Open-Source-Alternative zu AWS Rekognition zu verwenden, da es One-Shot-Learning unterstützt. So konnten wir dem Modell eine benutzerdefinierte Liste von Objekten zur Verfügung stellen, die erkannt werden sollten. Für jedes dieser Objekte gibt das Modell eine bestimmte Wahrscheinlichkeit an. Die Objekte mit den höchsten Wahrscheinlichkeiten über einem bestimmten Schwellenwert wurden als zusätzliche Merkmale für die Dokumente ausgewählt.

Das FELD M-Team baute eine produktive Dokumentenklassifizierungspipeline mit Python und MLflow für die Modellverwaltung in die bestehende AWS-Infrastruktur ein. Dazu gehörte ein Benchmark-Klassifizierungsmodell (XGBoost), das für jedes der vorgegebenen Tags mithilfe einer Reihe von kuratierten Merkmalen und Bild-Labels erstellt wurde. Die Ergebnisse wurden mit dem AWS Comprehend-Modell verglichen, einem Black-Box-NLP-Service für Textklassifizierungen, der auf verschiedenen Metriken des maschinellen Lernens (z. B. dem F1-Score) basiert. Bei mehreren Labels erzielte unser neues Modell exaktere Ergebnisse als AWS Comprehend. Die Ergebnisse führten zu der Entscheidung, in diesen Fällen unser neues Modell zu verwenden und bei den übrigen Labels weiterhin AWS Comprehend einzusetzen, um die besten Ergebnisse zu erzielen. 

Vollständig automatisierte Pipeline für das Labeling von Dokumenten in AWS

FELD M konnte erfolgreich eine automatisierte Pipeline für die Kennzeichnung von Dokumenten in AWS entwickeln. Die bereitgestellte Lösung verfügt über eine integrierte Feedback-Schleife: Wenn neue Dokumente verfügbar sind oder wenn Feedback gegeben wird (d. h. Benutzer können Labels für die Dokumente vorschlagen oder korrigieren), wird die Pipeline angestoßen, und die Modelle werden neu trainiert, um mit jeder Iteration immer genauere Vorhersagen zu liefern.

Die Lösung erfüllt die Anforderungen des Kunden voll und ganz, indem sie die Dokumente automatisch und genau klassifiziert und organisiert, sodass dem Vertriebsmitarbeiter bestimmte Dokumente schneller empfohlen werden können.

Ähnliche Projekte