Leistungen
- Kategorien Überblick
  01 Strategize Entwicklung fundierter Strategien, um Ihre Geschäftsziele datenbasiert zu erreichen.
  02 Build Aufbau robuster Dateninfrastrukturen und maßgeschneiderter Datenprodukte.
  03 Activate Aktivierung Ihrer Dateninvestitionen, um messbaren Mehrwert zu schaffen.
  Leistungen
  Wir sind FELD M – The Data Collective, Ihr Beratungs- und Implementierungspartner für erfolgreiche Daten-, Analyse- und AI-Projekte, die einen messbaren Mehrwert schaffen.
Tools
- Tools
  Wir sind FELD M – The Data Collective, Ihr Beratungs- und Implementierungspartner für erfolgreiche Daten-, Analyse- und AI-Projekte, die einen messbaren Mehrwert schaffen.
Insights
- Insights
  Wir sind FELD M – The Data Collective, Ihr Beratungs- und Implementierungspartner für erfolgreiche Daten-, Analyse- und AI-Projekte, die einen messbaren Mehrwert schaffen.
Karriere
Über uns

Wir sind FELD M – The Data Collective, Ihr Beratungs- und Implementierungspartner für erfolgreiche Daten-, Analyse- und AI-Projekte, die einen messbaren Mehrwert schaffen.

Kontakt

English

Kontakt

English

Zurück zur Übersicht

Maschinelles Lernen für eine effiziente Dokumentenklassifizierung

Data Science & Artificial Intelligence

Kunde

Unternehmen im Gesundheitswesen

Branche

Gesundheitswesen

Eingesetzte Tools

Hauptziele:

Entwicklung und Bewertung von Modellen für die Sprachverarbeitung (Natural Language Processing) und weiteren Modellen für maschinelles Lernen (ML), sowohl Black-Box als auch individuell entwickelte, für die Kennzeichnung von Dokumenten
Bildextraktion aus PDFs und One-shot Klassifizierung von Etiketten mit dem CLIP-Modell
Eine Pipeline in AWS, die in der Lage ist, Tausende von Dokumenten im Handumdrehen zu verarbeiten

Inhalte

Einleitung
Unser Ansatz
Entwicklung eines Datenprodukts von der Idee bis zur Umsetzung
Ein AWS Comprehend in mehreren Fällen überlegenes neues Modell
Vollständig automatisierte Pipeline für das Labeling von Dokumenten in AWS
Kontaktieren Sie uns

Unser Kunde, ein multinationales Unternehmen des Gesundheitswesens, verarbeitet eine große Anzahl von Dokumenten wie Publikationen, Schulungsunterlagen, Broschüren und Präsentationen. Jedes Dokument muss verschiedenen Vertriebsmitarbeitern zur Verfügung gestellt werden, die es dann gezielt an Kunden und andere Beteiligte weitergeben. Das Auffinden und Lokalisieren bestimmter Dokumente oder einer Kategorie von Dokumenten im alten AWS-System erfordert manuelles Tagging, was fehleranfällig und zeitaufwändig ist.

Der Kunde beauftragte FELD M, ihn bei der Lösung des Problems zu unterstützen.

Unser Ansatz

Das FELD M Team kam zu dem Schluss, dass der Aufbau einer automatisierten Datenpipeline der Schlüssel zur Lösung des Problems ist. Diese Pipeline musste die komplizierten Anforderungen der bestehenden Tagging-Taxonomie effizient bewältigen. Darüber hinaus war es von entscheidender Bedeutung, dass sie sich auf der Grundlage von Nutzereingaben und -feedback weiterentwickelt und so die Genauigkeit der Tags ständig verbessert. Auf diese Weise konnte eine kontinuierliche Feedbackschleife eingesetzt werden.

Das Gesamtziel des Projekts war die Implementierung und Bereitstellung einer Pipeline, die die entwickelten Modelle nutzt und die Vorhersageergebnisse in andere Dienste integriert (z. B. als Funktionen für eine Recommendation Engine oder zur Optimierung von Dashboards).

Entwicklung eines Datenprodukts von der Idee bis zur Umsetzung

Nach den Design Thinking-Prinzipien startete das Data Product Team von FELD M mit einer Kombination aus Desk Research, Interviews mit Stakeholdern und Workshops. Dies ermöglichte dem Team ein tiefes Verständnis der verschiedenen Geschäftsanforderungen, der verschiedenen Use Cases für getaggte Inhalte und der Taxonomie für das Tagging von Dokumenten. Auf dieser Basis konnte ein Konzept entwickelt werden, wie potenzielle Lösungen von den Endnutzern eingesetzt werden können. Unter Einbeziehung von Experten aus den Bereichen Data Science und Data Engineering wurde ein maßgeschneidertes Konzept für eine Komplettlösung mit verschiedenen maschinellen Lernmodellen, einer Bildklassifizierungs- und Verarbeitungspipeline sowie einer Benutzeroberfläche entwickelt.

Ein AWS Comprehend in mehreren Fällen überlegenes neues Modell

FELD M nutzte modernste Deep-Learning-basierte Computer-Vision-Techniken, um aus den in den Dokumenten enthaltenen Bildern Labels zu extrahieren. Wir beschlossen, CLIP als Open-Source-Alternative zu AWS Rekognition zu verwenden, da es One-Shot-Learning unterstützt. So konnten wir dem Modell eine benutzerdefinierte Liste von Objekten zur Verfügung stellen, die erkannt werden sollten. Für jedes dieser Objekte gibt das Modell eine bestimmte Wahrscheinlichkeit an. Die Objekte mit den höchsten Wahrscheinlichkeiten über einem bestimmten Schwellenwert wurden als zusätzliche Merkmale für die Dokumente ausgewählt.

Das FELD M Team baute eine produktive Dokumentenklassifizierungspipeline mit Python und MLflow für die Modellverwaltung in die bestehende AWS-Infrastruktur ein. Dazu gehörte ein Benchmark-Klassifizierungsmodell (XGBoost), das für jedes der vorgegebenen Tags mithilfe einer Reihe von kuratierten Merkmalen und Bild-Labels erstellt wurde. Die Ergebnisse wurden mit dem AWS Comprehend-Modell verglichen, einem Black-Box-NLP-Service für Textklassifizierungen, der auf verschiedenen Metriken des maschinellen Lernens (z. B. dem F1-Score) basiert. Bei mehreren Labels erzielte unser neues Modell exaktere Ergebnisse als AWS Comprehend. Die Ergebnisse führten zu der Entscheidung, in diesen Fällen unser neues Modell zu verwenden und bei den übrigen Labels weiterhin AWS Comprehend einzusetzen, um die besten Ergebnisse zu erzielen.

Vollständig automatisierte Pipeline für das Labeling von Dokumenten in AWS

FELD M konnte erfolgreich eine automatisierte Pipeline für die Kennzeichnung von Dokumenten in AWS entwickeln. Die bereitgestellte Lösung verfügt über eine integrierte Feedback-Schleife: Wenn neue Dokumente verfügbar sind oder wenn Feedback gegeben wird (d. h. Benutzer können Labels für die Dokumente vorschlagen oder korrigieren), wird die Pipeline angestoßen, und die Modelle werden neu trainiert, um mit jeder Iteration immer genauere Vorhersagen zu liefern.

Die Lösung erfüllt die Anforderungen des Kunden voll und ganz, indem sie die Dokumente automatisch und genau klassifiziert und organisiert, sodass dem Vertriebsmitarbeiter bestimmte Dokumente schneller empfohlen werden können.

Lassen Sie uns gemeinsam herausfinden, wie wir bei Ihrem Projekt unterstützen können!

Kontaktieren Sie uns

Haben Sie Fragen? Kontaktieren Sie uns heute!

Kontaktieren Sie uns

Maschinelles Lernen für eine effiziente Dokumentenklassifizierung

Kunde

Branche

Eingesetzte Tools

Hauptziele:

Inhalte

Unser Ansatz

Entwicklung eines Datenprodukts von der Idee bis zur Umsetzung

Ein AWS Comprehend in mehreren Fällen überlegenes neues Modell

Vollständig automatisierte Pipeline für das Labeling von Dokumenten in AWS

Ähnliche Projekte

Data science & AI

Medien

Präzisere Abonnement-Vorhersagen durch Data Science

Data science & AI

Einzelhandel

Ein Preisszenario Tool zur Simulation strategischer Szenarien

Data science & AI

Multichannel-Einzelhändler

Online-Interaktion, Offline-Kauf - Was ist die Verbindung?

Haben Sie Fragen? Kontaktieren Sie uns heute!