01-03-2023 · Interview

„Machine Learning-Modelle können interessante Zusammenhänge identifizieren“

Schlagwörter wie „Alternative Data“, „Machine Learning“ und „Natural Language Processing“ halten zunehmend in den Wortschatz von Assetmanagern Einzug. In unserem Gespräch mit Quant Researcher Clint Howard erläutern wir, was diese Begriffe für das Quant Team von Robeco bedeuten.

    Autoren/Autorinnen

  • Lusanele Magwa - Investment Specialist

    Lusanele Magwa

    Investment Specialist

Die zunehmende Bedeutung von Big Data erweitert den Anwendungsbereich quantitativer Strategien. Angesichts der Vielzahl neuer alternativer Datensätze stellt sich die Frage: Wie wählen Sie diejenigen aus, die Sie nutzen wollen?

„Unsere Research-Initiativen stützen sich auf Ideen, die auf fundamentalen ökonomischen Gründen fußen. Als quantitative Investoren haben wir traditionell Daten aus der Rechnungslegung der Unternehmen sowie Marktdaten für derartiges Research genutzt. Angesichts der Flut alternativer Datensätze verfügen wir nun über zusätzliche Informationen, die wir verwenden und auf verschiedene Weise zur Analyse unserer Ideen nutzen können. Dessen ungeachtet ist es wichtig auseinanderzuhalten, welche Datensätze einen Zusatznutzen liefern und welche nicht.“

„Da wir uns gezielt auf die ökonomische Begründung hinter unseren Ideen fokussieren, bevor wir Datenquellen auswählen (seien es alternative oder traditionelle), können wir gezielt diejenigen Datensätze auswählen, die unseres Erachtens tatsächlich Antworten auf die von uns betrachteten Fragen liefern. Wenn man nicht die ökonomischen Prinzipien als Ausgangspunkt nimmt, steht man vor dem möglichen Risiko, ein Modell zu überfrachten und seine Prognosekraft zu schwächen, da möglicherweise wenig geeignete Datensätze ausgewählt werden.“

„Beispielsweise stellen angesichts der Vielzahl an verfügbaren Daten umfangreiche Texte wie etwa Broker-Reports, Unternehmensankündigungen und Nachrichtenpublikation einen enormen Schatz an Informationen dar. Diese Datenquellen liefern jedoch nur dann einen Mehrwert für unseren Anlageprozess, wenn wir sie dazu verwenden können, die ökonomische Einschätzung hinter unseren Marktbeobachtungen oder Hypothesen zu analysieren. Alternative Datensätze sind deshalb ein Mittel zum Zweck, jedoch noch nicht das A und O.“

Datenanbieter können ein und dieselben Datensätze mehreren miteinander konkurrierenden Assetmanagern zur Verfügung stellen. Wie gelangt vor diesem Hintergrund das Quant Team von Robeco zu besonderen Einblicken?

„In der Tat vertreiben und verkaufen Datenanbieter ihre Datensätze an mehrere Assetmanager, wie das ihrem Geschäft entspricht. Wenn also investierende Personen die Daten einfach nur in der vorliegenden Form in ihre Modelle oder Strategien einfließen lassen, laufen sie Gefahr, dass sie damit keinen Mehrwert erzielen können, da ihre Konkurrenz ohne weiteres dasselbe tun kann.“

„Man kann dem auf verschiedene Weise Rechnung tragen. Ein von uns bevorzugter Ansatz besteht darin, nach Möglichkeit Rohdaten zu erhalten, an denen nur minimale Änderungen durch den Datenanbieter erfolgt sind. Das ermöglicht uns, die groben Daten so aufzubereiten, dass sie sich für die ökonomischen Fragestellungen eignen, die wir zu analysieren versuchen. Damit sind wir imstande, eigene Erkenntnisse daraus zu ziehen und sie einfließen zu lassen, womit sich unsere Nutzung der Daten von der unserer Wettbewerber unterscheidet.“

„Wiederum zu betonen ist, dass wir bei jedem Research, das wir durchführen, von einer ökonomischen Einschätzung ausgehen. Das bedeutet, dass wir eine begründete Idee davon haben, weshalb etwas funktionieren könnte. Erst dann halten wir Ausschau nach alternativen Datensätzen, die wir entweder zur Validierung oder Falsifizierung unserer ökonomischen Einschätzung verwenden können. Indem wir diesen Ansatz verfolgen, ist unseres Erachtens nach die Wahrscheinlichkeit, dass ein anderer Assetmanager den Datensatz auf genau dieselbe Weise nutzt, sehr gering.

Was kann man mit Machine Learning (ML) tun, was zuvor nicht ohne weiteres möglich war?

„Über Jahrzehnte war eine standardmäßige lineare Modellierung der Ansatz der Wahl bei quantitativen Modellen und stellte die Grundlage für den Erfolg des Investmentstils im Zeitverlauf dar. Im Wesentlichen stellen diese Modelle lineare Zusammenhänge zwischen Variablen her. Daraus lassen sich Muster ableiten, die zum Beispiel zur Ermittlung von Alpha-Signalen für Risikomodelle oder zur Entwicklung von Algorithmen zur Portfoliokonstruktion genutzt werden können.“

„ML liefert quantitativen Investierenden ein zusätzliches Instrumentarium zur Analyse ökonomischer Fragestellungen (oder zur Identifikation solcher Muster). Dieses flexible und leistungsfähige Rahmenwerk – durch Nutzung von Anwendungen wie neuronalen Netzen und Random Forest – kann nicht-lineare Zusammenhänge zwischen Variablen ermitteln und außerdem die Art und Weise, wie Variable miteinander interagieren. Dadurch können quantitative Investierende zusätzliche Einblicke zwecks Konstruktion von Signalen erhalten.“

„Beispielsweise können ML-Modelle interessante Zusammenhänge zwischen neuen Nachrichten und Trendwechsel bei Aktienkursen identifizieren. Eines dieser an den Finanzmärkten beobachteten Muster besteht darin, dass der Kurs eines Unternehmens nach einem sehr starken Anstieg (oder Rückgang) dazu tendiert, wieder zurückzugehen (oder anzusteigen). Interessanterweise stellt man fest, dass dieses Phänomen davon abhängt, in welchem Umfang es in außergewöhnlichem Umfang neue Nachrichten zu den jeweiligen Aktien gibt.“

„Konkret gesprochen: wenn es mehr neue Nachrichten als gewöhnlich zu einer Aktie in einer Phase gibt, in der ihr Kurs stark steigt oder fällt, besteht keine Tendenz zu einer Gegenbewegung. Die intuitive Erklärung dafür ist die, dass es sich wahrscheinlich um eine echte Reaktion auf veränderte Fundamentaldaten handelt, wenn es zu einem kürzlich erfolgten Ereignis zahlreiche neue Nachrichten gibt. Doch wenn es nicht in größerem Umfang laufend neue Nachrichten gibt, beobachtet man tendenziell das Muster, dass Aktienkurse wieder korrigieren. Das deutet darauf hin, dass die ursprüngliche Bewegung wahrscheinlich auf „Datenrauschen“ und nicht auf Fundamentaldaten basierte. Solche Einblicke sind für uns wirklich interessant.“

Warum aber jetzt?

„ML, insbesondere neuronale Netze, gibt es seit den 1940er Jahren. Aus zwei wesentlichen Gründen hat der Ansatz aber erst in jüngerer Zeit an Dynamik gewonnen. Der erste Grund hat mit der Rechenleistung zu tun. Um dies zu veranschaulichen: Früher hätte es mehrere Monate gedauert, um auch nur das einfachste ML-Modell auf dem modernsten Research-Computer von IBM oder Bell Labs laufen zu lassen. Der Wendepunkt kam in den 2000er Jahren, als ein exponentielles Wachstum der Rechenleistung erfolgte. Das hat den Aufstieg von Research-Anwendungen im Bereich ML zwecks Lösung von realen Problemen erleichtert.“

„Der zweite Grund steht in Zusammenhang mit den Daten, da ML-Modelle davon sehr viele zu Trainingszwecken benötigen. Sehr geholfen hat der Einzug von Big Data und der immer einfachere Zugang – vor allem durch Cloud Computing. Man findet heute Daten zu praktisch allem, was angesichts der erweiterten Basis für Training das Research auf Basis von ML-Anwendungen beschleunigt hat. Zum Glück für uns in der Finanzbranche können wir auch von der Grundlagenarbeit der Informatiker/-innen im Bereich der angewandten Forschung im Bereich ML profitieren.“

Bleiben Sie mit unseren monatlichen E-Mail-Updates stets informiert

Erhalten Sie unseren Robeco-Newsletter und lesen Sie als Erster die neuesten Erkenntnisse.

Jetzt anmelden

Was halten Sie von der Auffassung, dass ML-Modelle Black Boxes sind?

„Wenn man mich das vor 5 bis 10 Jahren gefragt hätte, dann hätte ich wahrscheinlich zugestimmt. Damals gab es einen ziemlichen Hype um die von ML-Techniken erzielten Resultate. Doch der Frage, was sich unter der Oberfläche abspielt, wurde nicht viel Aufmerksamkeit geschenkt. Doch seither hat es erhebliche Fortschritte in dieser Hinsicht gegeben. Dazu zählt die Entwicklung des Explainable AI (XAI)-Toolkits, welches Nutzer/-innen das Verständnis der von den ML-Modellen abgegebenen Prognosen erleichtert.“

„Beispielsweise stellt Shapley Values eine XAI-Methode dar, die uns eine Interpretation von ML-Modellen erlaubt. Dabei wird analysiert, in welcher Beziehung die Inputs und Outputs des Modells zueinanderstehen, wie die einzelnen Variablen zu den prognostizierten Ergebnissen beitragen, wie die Variablen miteinander interagieren usw. Dieses Niveau des Verständnisses entspricht unserer Anlagephilosophie, wonach alle unsere Ideen eine ökonomische Grundlage haben müssen. Dieses Instrumentarium erlaubt es uns, zu überprüfen, ob ML-Modelle Entscheidungen treffen, die im Einklang mit unserer ökonomischen Sicht stehen.

„Dessen ungeachtet, ist die Hürde für den Einsatz von ML-Modellen in unseren Strategien angesichts ihrer komplexen Natur hoch. Wir müssen das Gefühl haben, dass wir ihre Funktionsweise verstehen, dass sie sich so verhalten, wie wir es erwarten würden und dass sie einen Zusatznutzen gegenüber unseren bestehenden Modellen liefern. Ohne solche XAI-Tools, die ML-Modelle transparent machen, würden wir wahrscheinlich die mit ML verbundenen Möglichkeiten nicht nutzen können.“

Natural Language Processing (NLP) hat in den letzten Jahren viel Aufmerksamkeit auf sich gezogen. Was sind interessante Anwendungen von NLP?

„Bei NLP handelt es sich um ein Tool, das zur Analyse von gesprochener und geschriebener Sprache genutzt werden kann. Für uns als quantitative Investierende ist das sehr interessant. Denn damit sind wir imstande, uns auf zuvor unerkundetes Terrain zu begeben. Um es anschaulich zu machen: Fundamental orientierte Aktienanalysierende Personen werten unter anderem Broker Research, Unternehmensberichte sowie Mediennachrichten aus und treffen sich mit dem Management von Unternehmen. Dank ihrer Expertise gewinnen sie Einblicke, indem sie zwischen den Zeilen lesen. Quantitative Investierende können mittlerweile prinzipiell ähnliche Aufgaben mittels NLP-Techniken durchführen, beispielsweise Stimmungsanalysen.“

„Beispielsweise können wir untersuchen, wie Broker/-innen ein Unternehmen einschätzen, wenn sie in ihren Berichten darüber schreiben. Wir können die Stimmung in den Nachrichten anhand der Sprache in Artikeln über bestimmte Firmen analysieren und wir können die Stimmung in einem Unternehmen anhand der Aussagen von Führungskräften bei Pressekonferenzen im Vergleich zu Telefonkonferenzen zur Gewinnentwicklung beurteilen. Hinzu kommt, dass sich dies für Tausende von Aktien schnell erledigen lässt. Das ist nur einer der zahlreichen möglichen Verwendungen von NLP im Rahmen quantitativer Modelle.“

Was ist aber, wenn Unternehmensvertreter ihre Wortwahl anpassen, um das zu umgehen?

„Hier kommt klassische Spieltheorie zur Anwendung. In diesem Szenario würden quantitative investierende Personen zunächst beginnen, NLP-Modelle zur Analyse der vom Unternehmensmanagement verwendeten Sprache zu entwickeln. Wenn die Unternehmensvertretende davon erfahren, werden sie ihren Kommunikationsstil ändern, um ihre tatsächliche Stimmung zu verbergen. Doch der Kreis schließt sich, da quantitative Investierende ihre NLP-Modelle neu trainieren können, um diese Veränderung zu berücksichtigen. Daraufhin erfolgen weitere Anpassungen der Unternehmensrhetorik.“

„Diese endlose Schleife steht für das Konzept: Wenn man innovativ sein will, muss man es immer wieder sein. Es sind nicht nur unsere Mitbewerber, die versuchen, mit uns Schritt zu halten oder einen Vorsprung vor uns zu erlangen – es sind auch die Unternehmen selbst, in die wir investieren. Das bedeutet, dass wir die Art und Weise unseres Research und dessen Umsetzung in unseren Strategien laufend aktualisieren und verbessern müssen.“

Angesichts der vielversprechenden Aussichten von Alternative Data und fortschrittlichen Techniken untersuchen viele Assetmanager diese Ansätze und wenden sie an. Was macht den Ansatz von Robeco besonders?

„Wir haben ein sehr eigenes Konzept dabei verfolgt, wie wir alternative Daten und moderne Techniken in unsere Research und unsere Strategien einbeziehen. Zunächst haben wir uns darauf konzentriert, die Grundlagen zu schaffen, indem wir erhebliche Investitionen in die Infrastruktur getätigt haben. Wir wollten gewährleisten, dass wir imstande sind, diese Datensätze und Instrumente auf robuste und wiederholbare Weise zu nutzen. Gleichzeitig wollten wir imstande sein, NL oder MLP-Modelle nahtlos in neue oder bestehende Strategien zu integrieren.“

„Wir waren uns des Risikos bewusst, wertvolle Zeit mit Research sowie der Entwicklung von ML- und NLP-Modellen zu verwenden und dann an der Komplexität bei der praktischen Umsetzung dieser Modelle zu scheitern. Aufgrund unserer Investitionen zu Beginn war die Zeit bis zur Einführung neuer ML- und NLP-Researchtechniken in unserer Strategien relativ kurz.“

„Ich glaube, dass wir damit einen Wettbewerbsvorteil haben. Der Aufbau einer dem modernsten Stand entsprechenden Infrastruktur erfordert erhebliche Ressourcen, technische Expertise und Zeit bis zur Umsetzung. Nach rund drei Jahren intensiver Arbeit an diesem Projekt sind wir stolz auf die Ergebnisse. Wir können uns jetzt ganz auf unsere laufenden neuen Researchvorhaben fokussieren und unsere besten Ideen umsetzen. Begonnen hat dies im vergangenen Jahr mit der Einbeziehung eines „Distress Risk“ ML-Modells in unsere Strategien, welches das Risiko eines künftigen Aktienkurseinbruchs prognostiziert.”