© AdobeStock By WrightStudio

Wie man Probleme des maschinellen Lernens angeht

Machine Learning, Teil 2

 

Teil 1: https://its-people.de/machine-learning-wie-funktioniert-das

Der erste Schritt einer Machine Learning (ML)-Analyse ist die Eingrenzung des Problems. Welche Art von Datenproblem muss gelöst werden? Dieses Problem muss sehr klar und messbar sein.

Viele Data-Science-Projekte scheitern daran, dass schon in diesem ersten Schritt das Problem nicht sauber definiert ist.

Beginnen Sie damit, für ein zu lösendes Problem eine der Hauptstrategien 

  • Automatisierung oder
  • Maschinelles Lernen

zu bestimmen. Maschinelles Lernen kann helfen, Prozesse zu automatisieren, aber nicht alle Automatisierungsprobleme erfordern maschinelles Lernen. Klassische Automatisierung – ohne Lernen – ist angebracht, wenn das Problem relativ einfach und nicht kompliziert ist. Es gibt einige Arten von Arbeiten, die derzeit von Menschen in einer klaren und vordefinierten Reihenfolge erledigt werden. Daher kann man sich vorstellen, dass sie an die Maschine delegiert werden können. Diese Art der Automatisierung ist schon seit Jahrzehnten im Einsatz. Die Überwachung von Eingabedaten eines Datenproduzenten/-lieferanten, um mögliche vordefinierte Fehler zu erkennen, ist ein Beispiel für ein geeignetes Problem für eine einfache Automatisierung. Die Codierung menschlicher Sprache in Form eines strukturierten Datensatzes ist dagegen ein Beispiel, das zu komplex, anspruchsvoll und für einfache Automatisierungsregeln – ohne maschinelles Lernen – unmöglich ist.

Für diese Typ-II-Probleme reichen einfache Standard-Automatisierungslösungen nicht aus – hier sind lernende Mechanismen gefragt. Jetzt müssen wir das Feld des maschinellen Lernens betreten. Maschinelles Lernen ist im Kern eine Reihe von statistischen Methoden, die Vorhersagemuster in einem Datensatz finden können. Diese Methoden sind großartig darin, zu bestimmen, wie bestimmte Aspekte der Daten mit den Ergebnissen zusammenhängen, an denen Sie interessiert sind. Aber diese Methoden können nichts tun, um auf Wissen außerhalb der von Ihnen bereitgestellten Daten zuzugreifen. 

Zum Beispiel untersuchten Forscher an der Universität von Pittsburgh in den späten 1990er Jahren Algorithmen für maschinelles Lernen, um die Sterblichkeit bei Lungenentzündungen vorherzusagen. Diese Algorithmen rieten Krankenhäusern, Patienten, die auch an Asthma litten, nach Hause zu schicken, weil sie deren Risiko, an einer Lungenentzündung zu sterben, als gering einschätzten. Dies lag daran, dass die Datensätze, die den Algorithmen zur Verfügung gestellt wurden, nicht die Tatsache berücksichtigten, dass Asthmatiker sofort auf die Intensivstation geschickt werden mussten, um dort intensivmedizinisch versorgt zu werden.

Merkmale geeigneter Probleme beim maschinellen Lernen

Welche Fragestellungen eignen sich also für Methoden des maschinellen Lernens? Grundsätzlich jedes Problem, das

  • vorhergesagt werden muss, anstatt die Ursache abzuleiten und die Ursache zu finden, und
  • hinreichend autonom und relativ unabhängig von äußeren Einflüssen ist.

Die erste Eigenschaft bedeutet, dass Sie daran interessiert sind zu wissen, wie einige Aspekte der Daten relativ und irgendwie mit anderen Aspekten der Daten zusammenhängen, und es ist nicht der Zweck, die genaue Ursache dieser Beziehung zu entdecken. Bedenken Sie, dass statistische Methoden keine endgültigen wissenschaftlichen Theorien und Erkenntnisse auf den Tisch legen, sondern Trends mit einer hohen Eintrittswahrscheinlichkeit liefern.

Das zweite Merkmal bedeutet, dass Sie relativ sicher sind, dass die Daten, die Sie Ihren Problemlernalgorithmen zur Verfügung stellen, fast alle wichtigen Aspekte des Problems abdecken. Wenn sich in der Zukunft das, was Sie vorhersagen wollen, auf unvorhersehbare Weise ändert – und nicht mehr mit den bisherigen Vorhersagemustern übereinstimmt – wird ein anderer Algorithmus aus dem Bereich, für den er bestimmt ist, gesehen, und nicht etwas, das er neu trainieren sollte.

Beispiele für gute Probleme im Bereich des maschinellen Lernens sind die Vorhersage, welche Art von Anzeige ein Webbesucher wahrscheinlich anklicken wird, oder die Einschätzung, welcher Text in Umfang und Inhalt dem zuvor gesehenen Text ähnlich ist. Beispiele für ungeeignete Probleme sind die Vorhersage des Gewinns eines völlig neuen und revolutionären Produkts oder die Vorhersage der Verkäufe des nächsten Jahres auf der Grundlage von Daten aus den Vorjahren, wenn ein großer Konkurrent gerade in den Markt eingetreten ist.

Sobald Sie festgestellt haben, dass Ihr Problem für maschinelles Lernen geeignet ist, müssen Sie im nächsten Schritt beurteilen, ob Sie über die notwendigen und geeigneten Daten zur Lösung des Problems verfügen. Die Daten können aus dem eigenen Unternehmen oder von einem externen Unternehmen stammen. Im zweiten Fall prüfen Sie und stellen sicher, dass Sie die richtigen, relevanten und passenden Daten für Ihr Problem haben.

Intuition 

Jetzt, da Sie wissen, dass Ihr Problem ein klassisches Problem des maschinellen Lernens ist und Sie die entsprechenden Daten haben, besteht der nächste Schritt darin, Ihre Sinne und Ihre Intuition zu überprüfen. Ja, Ihre Intuition ist sehr wichtig: Methoden des maschinellen Lernens, obwohl sie scheinbar unternehmensspezifisch und irgendwie magisch sind, basieren auf Statistiken und Wahrscheinlichkeiten. Statistiken und Wahrscheinlichkeiten können in Form von intuitiven Ausdrücken ausgedrückt werden, die auf sensorischen und inneren Wahrnehmungen basieren. Um sicherzustellen, dass die vorgeschlagene Methode großartig und brillant funktioniert, stellen Sie eine Menge Fragen zu verschiedenen Aspekten des Themas.

Sie werden leicht herausfinden, ob diese Methode für Ihr Problem funktioniert: Ist Ihre Sinneswahrnehmung, dass diese Methode im Allgemeinen sinnvoll ist? Passt dieser Ansatz in den konzeptionellen Rahmen des Problems, mit dem Sie sich beschäftigen? Was macht diese Methode für Ihr Problem geeignet? Wenn Sie eine Reihe von Schritten und Abläufen kodieren, können sequenzielle Methoden oder Entscheidungsbäume eine gute Option sein. Wenn Sie zwei Gruppen von Ausgaben trennen müssen, ist die SVMB- oder binäre Support-Vektor-Maschine-Methode möglicherweise am besten für Ihre Bedürfnisse geeignet. 

Maschinelles Lernen und Ausgabegenauigkeit und Fehlerraten

Je mehr Sie wissen, desto realistischer werden Ihre Erwartungen sein. Wenn Sie genug Fragen stellen und genug Antworten erhalten, um ein intuitives und sensorisches Verständnis dafür zu bekommen, wie diese Methoden funktionieren, werden Sie sehen, dass es keine Magie gibt. Jeder macht Fehler und jeder Algorithmus ist anfällig für Fehler. In allen Fällen, selbst in den einfachsten, werden die Algorithmen einige falsche Ergebnisse liefern. Die durchschnittliche maschinelle Lernvorhersage-Engine wird die richtigen Ergebnisse liefern, aber sie wird definitiv Fehler machen. Fehler werden passieren und oft an Stellen sein, die Sie nicht vorhersagen können.

Im letzten Schritt müssen Sie nun bewerten und bestimmen, in welchem Bereich Ihres Prozesses Sie statistische Fehler erwarten und tolerieren können. Ist Ihr Problem von der Art, dass Sie eine 80%ige Genauigkeitsrate erreichen können? Können Sie sich eine Fehlerquote von 10% leisten? Oder nur 5%? Oder nur 1%? Gibt es bestimmte Arten von Fehlern, die niemals auftreten sollten und nicht akzeptabel sind? Seien Sie klar und ehrlich mit sich selbst und Ihrem Lösungsanbieter und Systemlieferanten über Ihre Bedürfnisse und Erwartungen, und handeln Sie, wenn Sie sich beide über diese Schlüsselfragen einig sind. Ausgerüstet mit Wissen, Verständnis und vernünftigen Erwartungen sind Sie bereit, die Vorteile des maschinellen Lernens zu nutzen. Zögern Sie nicht, diesen Weg zu beschreiten, sondern gehen Sie überlegt und bedacht vor.

Teil 1: https://its-people.de/machine-learning-wie-funktioniert-das

 

Bildnachweise: Titelbild:© AdobeStock By WrightStudio

Das könnte Sie auch interessieren

Bleiben Sie informiert:

its-people hilft Ihnen...

Weitere Blogthemen: