Artikel

7.1: Daten kategorisieren - Mathematik


Sobald wir Daten gesammelt haben, möchten wir sie möglicherweise klassifizieren. Grob gesagt können Daten klassifiziert werden als kategoriale Daten oder quantitative Daten.

Quantitative und kategoriale Daten

  • Kategoriale (qualitative) Daten sind Informationen, die es uns ermöglichen, die untersuchten Objekte in verschiedene Kategorien einzuordnen.
  • Quantitative Daten sind numerische Antworten, mit denen wir sinnvolle arithmetische Berechnungen durchführen können.

Beispiel 3

Wir könnten eine Umfrage durchführen, um den Namen des Lieblingsfilms zu ermitteln, den jede Person in einem Mathematikunterricht in einem Kino gesehen hat.

Wenn wir eine solche Umfrage durchführen, würden die Antworten wie folgt aussehen: Findet Nemo, Hulk, oder Terminator 3: Aufstieg der Maschinen. Wir können die Anzahl der Personen zählen, die jede Antwort geben, aber die Antworten selbst haben keine numerischen Werte: Wir können keine Berechnungen mit einer Antwort wie "Findet Nemo." Dies wären kategorische Daten.

Beispiel 4

Eine Umfrage könnte die Anzahl der Filme erfragen, die Sie in den letzten 12 Monaten in einem Kino gesehen haben (0, 1, 2, 3, 4, ...)

Dies wären quantitative Daten.

Andere Beispiele für quantitative Daten sind die Laufzeit des zuletzt gesehenen Films (104 Minuten, 137 Minuten, 104 Minuten, ...) oder der Geldbetrag, den Sie beim letzten Kinobesuch für eine Kinokarte bezahlt haben Theater (5,50 $, 7,75 $, 9 $, ...).

Manchmal kann es etwas schwieriger sein, festzustellen, ob Daten kategorial oder quantitativ sind oder nicht.

Beispiel 5

Angenommen, wir erfassen die Postleitzahlen der Befragten in einer Umfrage, um ihren geografischen Standort zu verfolgen.

Postleitzahlen sind Zahlen, aber wir können damit keine sinnvollen mathematischen Berechnungen durchführen (es macht keinen Sinn zu sagen, dass 98036 "zweimal" 49018 ist - das ist so, als würde man sagen, dass Lynnwood, WA "zweimal" Battle Creek, MI, was überhaupt keinen Sinn macht), Postleitzahlen sind also wirklich kategorische Daten.

Beispiel 6

Eine Umfrage zu dem Film, den Sie zuletzt besucht haben, enthält die Frage "Wie bewerten Sie den Film, den Sie gerade gesehen haben?" mit diesen möglichen Antworten:

1 - es war schrecklich
2 - es war einfach ok
3 - hat mir gefallen
4 - es war großartig
5 - bester Film aller Zeiten!

Auch hier gibt es Zahlen, die mit den Antworten verbunden sind, aber wir können damit nicht wirklich rechnen: Ein Film, der eine 4 bewertet, ist nicht unbedingt doppelt so gut wie ein Film, der eine 2 bewertet, was auch immer das bedeutet; Wenn zwei Leute den Film sehen und einer denkt, dass er stinkt und der andere denkt, dass er der beste aller Zeiten ist, ist es nicht unbedingt sinnvoll zu sagen, dass er im Durchschnitt gefallen hat.

Wenn wir die Gewohnheiten und Vorlieben beim Kinobesuch untersuchen, sollten wir nicht vergessen, die betrachtete Bevölkerung anzugeben. Wenn wir 3-7-Jährige befragen, könnte der Ausreißer-Favorit sein Findet Nemo. 13-17-Jährige bevorzugen vielleicht Terminator 3. Und 33-37-Jährige bevorzugen vielleicht ... Findet Nemo.

Jetzt ausprobieren 3

Klassifizieren Sie jede Messung als kategorisch oder quantitativ

  1. Augenfarbe einer Gruppe von Menschen
  2. Tageshöchsttemperatur einer Stadt über mehrere Wochen
  3. Jährliches Einkommen
Antworten
  1. Kategorisch
  2. Quantitativ
  3. Quantitativ

7.1: Daten kategorisieren - Mathematik

      • Zustand der BildungDigest of Education StatisticsProjections of Education StatisticsTopical Studies
      • National Assessment of Educational Progress (NAEP)Programm zur Internationalen Bewertung der Kompetenzen Erwachsener (PIAAC)
      • Internationales Aktivitätenprogramm (IAP)
      • Frühkindliche Längsschnittstudie (ECLS)National Household Education Survey (NHES)
      • Common Core of Data (CCD)Secondary Longitudinal Studies ProgramEducation Demographic and Geographic Estimates (EDGE)National Teacher and Principal Survey (NTPS)mehr.
      • Bibliotheksstatistikprogramm
      • Baccalaureate and Beyond (B&B)Karriere-/Technische Bildungsstatistik (CTES)Integriertes postsekundäres Bildungsdatensystem (IPEDS)Nationale Studien zur postsekundären Studienförderung (NPSAS)mehr.
      • Common Education Data Standards (CEDS)Nationales Forum für BildungsstatistikStatewide Longitudinal Data Systems Grant Program - (SLDS)mehr.
      • Fernunterricht Dataset TrainingNational Postsekundäre Bildungskooperative (NPEC)Statistical Standards Programmore.
        • EDATDelta Cost ProjectIPEDS Data CenterSo beantragen Sie eine Lizenz für eingeschränkte Nutzung
        • ASC-ED-TabellenData LabElementary Secondary Information SystemInternational Data ExplorerIPEDS Data CenterNAEP Data Explorer Data
        • ACS DashboardCollege NavigatorPrivatschulenÖffentliche SchulbezirkeÖffentliche SchulenSearch for Schools and Colleges
        • NAEP State Profiles (nationsreportcard.gov)Public School District Finance Peer SearchEducation Finance Statistics CenterIPEDS Data Center
        • NAEP-Fragen-ToolNAAL-Fragen-Tool
        • ACS-ED-DashboardACS-ED-KartenCollegeMapLocale LookupMapEdSAFEMapSchool and District Navigator
        • BibliographieED Data Inventory
        • AssessmentsFrühe KindheitGrund- und SekundarstufeBibliothekPostsekundär und darüber hinausRessourcen
        • NCES BlogNeues bei NCESKonferenzen/SchulungenNachrichtenFlashFinanzierungsmöglichkeitenPressemitteilungenStatChat
        • Suche in Veröffentlichungen und ProduktenJahresberichten Datenlizenzen mit eingeschränkter Nutzung
          Aktuelle VeröffentlichungenNach Themenindex A-ZBy Umfrage und ProgrammbereichenDatenprodukte Letzte 6 Monate
        • Über NCESCommissionerKontakt zu NCESMitarbeiternHilfe
        Jahresberichte und Informationsstab (Jahresbericht)

        COE-Indikatoren

        Familienmerkmale
        Vorschul-, Grundschul- und Sekundarschulbildung
        Vorschulbildung (3)
        Grund- und Sekundarschuleinschreibung (6)
        Schulen und Bezirke (2)
        Schulkriminalität und Sicherheit
        Gewaltsame Todesfälle (1)
        Nicht tödliche Viktimisierung von Schülern und Lehrern (3)
        Schulumgebung (6)
        Kämpfe, Waffen und illegale Substanzen (4)
        Angst und Vermeidung (2)
        Disziplin, Sicherheit und Sicherheitspraktiken (3)
        Technologie (2)
        Lehrer und Mitarbeiter (6)
        Schüler lernen
        Bewertungen (8)
        Kurse (1)
        High School Persistenz und Abschluss (2)
        Finanzen und Governance (2)
        Post-sekundäre Ausbildung
        Postsekundäre Studierende (7)
        Institutionen (1)
        Campus-Kriminalität und Sicherheit (2)
        Fakultät und Mitarbeiter (1)
        Abschluss- und Abschlussquoten (5)
        Finanzen und Ressourcen (6)
        Bevölkerungsmerkmale und wirtschaftliche Ergebnisse
        Bevölkerungsmerkmale (2)
        Wirtschaftsergebnisse (5)
        Internationale Vergleiche
        Bewertungen (3)
        Einschreibung und Erlangung (2)
        Finanzen (1)
        Schulkriminalität und Sicherheit
        Gewaltsame Todesfälle (1)
        Nicht tödliche Viktimisierung von Schülern und Lehrern (3)
        Schulumgebung (6)
        Kämpfe, Waffen und illegale Substanzen (4)
        Angst und Vermeidung (2)
        Disziplin, Sicherheit und Sicherheitspraktiken (3)
        Campus-Kriminalität und Sicherheit (2)
        Scheinwerfer
        2021 Scheinwerfer (2)
        Spotlight-Archiv

        Verwandte Websites

        Bildungsstand auf einen Blick
        Leserleitfaden
        Leitfaden zu Quellen
        Gehen Sie zur Website der National Assessment of Educational Progress (NAEP)
        Übersichtstabellen
        Geschäftsberichte Publikationen & Produkte
        Kurzinformation

        6.8 Datensätze und Verteilungen

        In dieser Einheit lernen die Schüler Populationen kennen und untersuchen Variablen, die mit einer Population verbunden sind. Sie verstehen und verwenden die Begriffe „numerische Daten“, „kategoriale Daten“, „Umfrage“ (als Substantiv und Verb), „statistische Frage“, „Variabilität“, „Verteilung“ und „Häufigkeit“. Sie erstellen und interpretieren Histogramme, Balkendiagramme, Häufigkeitstabellen und Boxplots. Sie beschreiben Verteilungen (die auf grafischen Displays angezeigt werden) mit Begriffen wie „symmetrisch“, „Spitzen“, „Lücken“ und „Cluster“. Sie arbeiten mit Mittenmaßen – verstehen und verwenden die Begriffe „Mittelwert“, „Durchschnitt“ und „Median“. Sie arbeiten mit Variabilitätsmaßen – verstehen und verwenden die Begriffe „Bereich“, „mittlere absolute Abweichung“ oder MAD, „Quartil“ und „Interquartilsabstand“ oder IQR. Sie interpretieren Messungen von Zentrum und Variabilität in Kontexten.

        Unterricht

        Daten, Variabilität und statistische Fragen

        Punktdiagramme und Histogramme

        Zentrums- und Variabilitätsmaße

        Median und IQR

        Lass es uns an die Arbeit machen

        IM 6–8 Math wurde ursprünglich von Open Up Resources entwickelt und von Illustrative Mathematics® verfasst und unterliegt dem Copyright 2017-2019 von Open Up Resources. Es ist unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) lizenziert. Das Mathe-Curriculum 6–8 von OUR ist unter https://openupresources.org/math-curriculum/ verfügbar.

        Anpassungen und Aktualisierungen von IM 6–8 Math unterliegen dem Copyright 2019 von Illustrative Mathematics und sind unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) lizenziert.

        Anpassungen zum Hinzufügen zusätzlicher Englischlernhilfen unterliegen dem Copyright 2019 von Open Up Resources und sind unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) lizenziert.

        Der zweite Satz englischer Bewertungen (gekennzeichnet als Satz „B“) unterliegt dem Copyright 2019 von Open Up Resources und ist unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) lizenziert.

        Spanische Übersetzungen der „B“-Bewertungen unterliegen dem Copyright 2020 von Illustrative Mathematics und sind unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) lizenziert.

        Der Name und das Logo von Illustrative Mathematics unterliegen nicht der Creative Commons-Lizenz und dürfen ohne die vorherige und ausdrückliche schriftliche Zustimmung von Illustrative Mathematics nicht verwendet werden.

        Diese Website enthält gemeinfreie Bilder oder offen lizenzierte Bilder, die von ihren jeweiligen Eigentümern urheberrechtlich geschützt sind. Offen lizenzierte Bilder bleiben unter den Bedingungen ihrer jeweiligen Lizenzen. Weitere Informationen finden Sie im Abschnitt zur Bildzuordnung.


        Der Modus eines Datensatzes

        Problem: Die Anzahl der in einer Reihe von Fußballspielen erzielten Punkte ist unten aufgeführt. Welcher Score trat am häufigsten auf?

        Lösung: Ordnen wir die Punktzahlen von der niedrigsten zur höchsten an, erhalten wir:

        Antwort: Die am häufigsten vorkommende Punktzahl ist 18.

        Dieses Problem forderte uns wirklich auf, den Modus eines Satzes von 7 Zahlen zu finden.

        Definition: Das Modus eines Datensatzes ist der Wert in dem Datensatz, der am häufigsten vorkommt.

        Im obigen Problem ist 18 der Modus. Es ist leicht, sich die Definition eines Modus zu merken, da er das Wort hat die meisten drin. Die Wörter Modus und die meisten beide beginnen mit den Buchstaben mo. Schauen wir uns noch einige Beispiele an.

        Beispiel 1: Es folgt die Anzahl der Aufgaben, die Frau Matty an 10 verschiedenen Tagen für die Hausaufgaben aufgegeben hat. Was ist der Modus?

        Lösung: Wenn wir die Daten vom kleinsten zum größten ordnen, erhalten wir:

        Beispiel 2: In einem Crashtest wurden 11 Autos getestet, um zu bestimmen, welche Aufprallgeschwindigkeit erforderlich war, um einen minimalen Stoßfängerschaden zu erzielen. Finden Sie den Modus der Geschwindigkeiten in Meilen pro Stunde unten.

        24, 15, 18, 20, 18, 22, 24, 26, 18, 26, 24

        Lösung: Wenn wir die Daten vom kleinsten zum größten ordnen, erhalten wir:

        15, 18, 18, 18, 20, 22, 24, 24, 24, 26, 26

        Antwort: Da sowohl 18 als auch 24 dreimal vorkommen, sind die Modi 18 und 24 Meilen pro Stunde. Dieser Datensatz ist bimodal.

        Beispiel 3: Ein Marathonlauf wurde von 5 Teilnehmern absolviert. Welchen Modus haben diese Zeiten in Stunden?

        2,7 Std., 8,3 Std., 3,5 Std., 5,1 Std., 4,9 Std.

        Lösung: Wenn wir die Daten vom kleinsten zum größten ordnen, erhalten wir:

        Antwort: Da jeder Wert nur einmal im Datensatz vorkommt, gibt es kein Modus für diesen Datensatz.

        Beispiel 4: An einem kalten Wintertag im Januar wird die Temperatur für 9 nordamerikanische Städte in Fahrenheit aufgezeichnet. Welchen Modus haben diese Temperaturen?

        Wenn wir die Daten vom kleinsten zum größten ordnen, erhalten wir:

        Antwort: Der Modus dieser Temperaturen ist 0.

        Vergleichen wir die Ergebnisse der letzten beiden Beispiele. In Beispiel 3 kommt jeder Wert nur einmal vor, daher gibt es keinen Modus. In Beispiel 4 ist der Modus 0, da 0 am häufigsten in der Menge vorkommt. Verwechseln Sie den Modus 0 nicht mit keinem Modus.

        Zusammenfassung: Die Modus eines Datensatzes ist der Wert in dem Datensatz, der am häufigsten vorkommt. Ein Datensatz kann bimodal sein. Es ist auch möglich, einen Datensatz ohne Modus zu haben.

        Übungen

        Anfahrt: Finden Sie den Modus jedes Datensatzes. Klicken Sie einmal in ein ANTWORTFELD, geben Sie Ihre Antwort ein und klicken Sie dann auf EINGABE. Nachdem Sie auf EINGABE geklickt haben, wird im ERGEBNISFELD eine Meldung angezeigt, ob Ihre Antwort richtig oder falsch ist. Um von vorne zu beginnen, klicken Sie auf LÖSCHEN.


        Was ist es?

        Die Datenanalyse ist der Prozess der Interpretation der Bedeutung der von uns gesammelten, organisierten und in Form einer Tabelle, eines Balkendiagramms, eines Liniendiagramms oder einer anderen Darstellung angezeigten Daten. Der Prozess beinhaltet die Suche nach Mustern – Ähnlichkeiten, Disparitäten, Trends und andere Beziehungen – und darüber nachzudenken, was diese Muster bedeuten könnten.

        Stellen Sie den Schülern bei der Datenanalyse Fragen wie:

        Was sagt Ihnen diese Grafik?

        Wer könnte diese Daten verwenden? Wie könnten sie es nutzen?

        Warum werden diese Daten in einem Liniendiagramm angezeigt?

        Der Prozess des Sammelns, Organisierens und Analysierens von Daten ist nicht immer ein einfacher, sequenzieller Prozess. Manchmal kann uns eine vorläufige Analyse eines Datensatzes dazu veranlassen, die Daten auf eine andere Weise zu betrachten oder sogar zurückzugehen und zusätzliche Daten zu sammeln, um sie zu testen und zu testen aufkommende Hypothese. Die Schüler könnten beispielsweise ihre Klassenkameraden befragen, wie sie zur Schule transportiert werden (z. B. mit dem Auto, Bus, zu Fuß oder auf andere Weise) und die Daten dann in einem Kreisdiagramm anzeigen.

        Nach der Analyse der Daten in diesem Diagramm können die Schüler die Daten auf andere Weise betrachten. Die Schüler könnten daran interessiert sein, mehr über Personen zu erfahren, die mit dem Auto zur Schule transportiert werden. Warum fahren sie mit dem Auto zur Schule? Sind sie auf einer Buslinie? Bilden sie Fahrgemeinschaften mit anderen Studenten? Sind sie nah genug an der Schule, um zu Fuß zu gehen, möchten aber lieber reiten? Ist die Nachbarschaft zwischen Wohnung und Schule zu gefährlich, um sie zu durchqueren? Fahren die Leute, die zu Fuß gehen, auch manchmal mit dem Auto? Sie stellen möglicherweise fest, dass die meisten Schüler der Kategorie „Sonstiges“ mit dem Fahrrad zur Schule fahren, und entscheiden sich, eine zusätzliche Kategorie zu erstellen.

        In allen Jahrgangsstufen betrachten die Schüler grafische Darstellungen und beschreiben sie, indem sie Aspekte wie den größten Wert, den geringsten Wert und die Beziehung eines Datenpunkts zu einem anderen identifizieren. Schülerinnen und Schüler der Mittelstufe lernen, einen Datensatz durch die Bestimmung der Spannweite und zweier Mittelmaße, des Modus und des Medians, genauer zusammenzufassen bzw. Schülerinnen und Schüler der Oberstufe lernen, das dritte Maß des Zentrums, den Mittelwert, zu finden und auch Quartile zu bestimmen, Ausreißer zu identifizieren und für Streudiagramme eine Linie oder Kurve der besten Anpassung zu berechnen und die resultierende Korrelation zu beschreiben. Gymnasiasten sollten in der Lage sein, ihre eigenen Untersuchungen zu entwerfen, die eine effektive Stichprobenerhebung, repräsentative Daten und eine unvoreingenommene Interpretation der Ergebnisse beinhalten.

        Auf jeder Klassenstufe sollten Sie die Schüler ermutigen, über die Bedeutung der gesammelten und angezeigten Daten nachzudenken. Die entscheidende Frage ist "Warum?"

        Warum ist es wichtig?

        Die Fähigkeit, auf der Grundlage von Daten Schlussfolgerungen und Vorhersagen zu treffen, ist eine entscheidende Fähigkeit, die Schüler entwickeln müssen.

        Die Datenanalyse ist entscheidend für die Entwicklung von Theorien und neuen Ideen. Durch die genaue Beachtung von Mustern, den Geschichten hinter Ausreißern, Beziehungen zwischen und zwischen Datensätzen und den externen Faktoren, die die Daten möglicherweise beeinflusst haben, können die Schüler ein tieferes Verständnis für den entscheidenden Unterschied zwischen Theorie und Evidenz erlangen.


        Infinitesimalrechnung im maschinellen Lernen:

        Viele Lernende, die keine Lust hatten, in der Schule gelehrte Infinitesimalrechnung zu lernen, werden einen groben Schock erleiden, da dies ein wesentlicher Bestandteil des maschinellen Lernens ist. Zum Glück müssen Sie die Infinitesimalrechnung nicht beherrschen, es ist nur wichtig, die Prinzipien der Infinitesimalrechnung zu lernen und zu verstehen. Außerdem müssen Sie die praktischen Anwendungen des maschinellen Lernens durch Infinitesimalrechnung während der Modellerstellung verstehen.

        Wenn Sie also verstehen, wie die Ableitung der Funktion ihre Änderungsrate in der Berechnung zurückgibt, können Sie das Konzept des Gradientenabstiegs verstehen. Beim Gradientenabstieg müssen wir die lokalen Minima für eine Funktion usw. finden. Wenn Sie Sattelpunkte oder mehrere Minima haben, kann ein Gradientenabstieg ein lokales Minima und kein globales Minima ermitteln, es sei denn, Sie starten von mehreren Punkten aus. Einige der notwendigen Themen, um den Kalkülteil in der Datenwissenschaft zu beherrschen, sind Differential- und Integralrechnung, Partielle Ableitungen, Vektorwertfunktionen, Richtungsgradienten.

        Multivariate Kalküle werden sowohl beim Algorithmustraining als auch beim Gradientenabstieg verwendet. Ableitungen, Divergenz, Krümmung und quadratische Approximationen sind alles wichtige Konzepte, die Sie lernen und implementieren können.

        Die Mathematik des maschinellen Lernens mag Ihnen im Moment einschüchternd erscheinen, aber Sie werden in der Lage sein, die Konzepte der Infinitesimalrechnung zu verstehen, die erforderlich sind, um ein erfolgreiches Modell des maschinellen Lernens innerhalb weniger Tage konstruktiven Lernens aufzubauen.


        Lustige mathematische Probleme für Praktizierende des maschinellen Lernens

        Dies ist Teil einer Reihe, die die folgenden Aspekte des maschinellen Lernens behandelt:

        • Mathematik, Simulationen, Benchmarking-Algorithmen auf Basis synthetischer Daten (kurz: experimentelle Datenwissenschaft)
        • Meinungen, zum Beispiel über den Wert einer Promotion in unserem Bereich oder die Anwendung einiger Techniken
        • Geschäftsanalysen
        • Kerntechniken

        Diese Ausgabe konzentriert sich auf coole mathematische Probleme, die mit Datensätzen, Quellcode und Algorithmen einhergehen. Viele haben einen statistischen, probabilistischen oder experimentellen Charakter, und einige haben mit dynamischen Systemen zu tun. Sie können verwendet werden, um Ihr mathematisches Wissen zu erweitern, Ihre Fähigkeiten zum maschinellen Lernen an ursprünglichen Problemen zu üben oder aus Neugierde. Meine Artikel, die auf Data Science Central veröffentlicht werden, sind immer in einfachem Englisch verfasst und für Fachleute mit in der Regel einjähriger mathematischer oder statistischer Ausbildung im Grundstudium zugänglich. Sie richten sich an Personen, die Daten verwenden, aber daran interessiert sind, praktischere analytische Erfahrungen zu sammeln. Der Stil ist kompakt und richtet sich an Menschen, die nicht viel Freizeit haben.

        Trotz dieser Einschränkungen werden häufig aktuelle Ergebnisse auf dem neuesten Stand der Technik sowie Betriebsgeheimnisse und Forschungsmaterialien des maschinellen Lernens weitergegeben. Verweise auf weiterführende Literatur (von mir und anderen Autoren) werden für diejenigen bereitgestellt, die tiefer in die diskutierten interessierten Themen eintauchen möchten.

        1. Lustige mathematische Probleme für Praktizierende des maschinellen Lernens

        Diese Artikel konzentrieren sich auf Techniken, die breite Anwendungsmöglichkeiten haben oder die auf andere Weise grundlegender oder bahnbrechender Natur sind.

        2. Kostenlose Bücher

          Statistik: Neue Grundlagen, Toolbox und Rezepte für maschinelles Lernen

        Hier verfügbar. Auf rund 300 Seiten und 28 Kapiteln behandelt es viele neue Themen und bietet einen frischen Blick auf das Thema, mit Faustregeln und Rezepten, die sich leicht automatisieren oder in Black-Box-Systeme integrieren lassen, sowie neue modellfreie, datenbasierte Grundlagen für statistische Wissenschaft und prädiktive Analytik. Der Ansatz konzentriert sich auf robuste Techniken und ist Bottom-Up (von der Anwendung bis zur Theorie), im Gegensatz zum traditionellen Top-Down-Ansatz.

        Das Material ist für Praktiker zugänglich, die einen einjährigen Hochschulzugang zu Statistik und Wahrscheinlichkeit haben. Der kompakte und Tutorial-Stil mit vielen Anwendungen mit zahlreichen Abbildungen richtet sich an Praktiker, Forscher und Führungskräfte in verschiedenen quantitativen Bereichen.

        Hier verfügbar. Vollständiger Titel: Applied Stochastic Processes, Chaos Modeling, and Probabilistic Properties of Numeration Systems (104 Seiten, 16 Kapitel.) Dieses Buch richtet sich an Fachleute in den Bereichen Data Science, Informatik, Operations Research, Statistik, maschinelles Lernen, Big Data und Mathematik . Auf 100 Seiten werden viele neue Themen behandelt und eine neue Perspektive auf das Thema geboten.

        Es ist für Praktiker mit einer zweijährigen College-Niveau in Statistik und Wahrscheinlichkeit zugänglich. Der kompakte und Tutorial-Stil mit vielen Anwendungen (Blockchain, Quantenalgorithmen, HPC, Zufallszahlengenerierung, Kryptographie, Fintech, Web-Crawling, statistisches Testen) mit zahlreichen Illustrationen richtet sich an Praktiker, Forscher und Führungskräfte in verschiedenen quantitativen Bereichen.

        Um eine wöchentliche Zusammenfassung unserer neuen Artikel zu erhalten, abonnieren Sie hier unseren Newsletter.


        Für Ihre Information

        • Anders als beim Lesen, bei dem der PRF ein allgemeiner Indikator für die Lesefähigkeiten eines Schülers ist, gibt es keinen allgemeinen Indikator für die mathematischen Fähigkeiten eines Schülers.
        • In Ermangelung geeigneter Maßnahmen zur Fortschrittskontrolle oder Arbeitsproben bietet das Nationale Zentrum für Intensivintervention Informationen über Möglichkeiten zur Beurteilung der mathematischen Fähigkeiten eines Schülers: Zählen, grundlegende Fakten, Stellenwertkonzepte, Ganzzahlenberechnung und Brüche als Zahlen.

        Nachdem die Fehler markiert wurden, ist es wichtig, sie weiter zu analysieren, um zu erkennen, welche Arten von Fehlern gemacht wurden. Einige der häufigsten Fehler, die Schüler bei mathematischen Berechnungen machen, finden Sie in der folgenden Tabelle.

        Häufige Arten von Berechnungsfehlern
        Fehlertyp Beispiel
        Hat grundlegende Zahlenfakten nicht gemeistert: Der Student kennt die grundlegenden Fakten über Addition, Subtraktion, Multiplikation und Division nicht. Der Schüler ist mit grundlegenden Zahlenfakten nicht fließend.
        Missverständnis des Stellenwerts: Der Schüler notiert die Antwort, sodass die Zahlen nicht in der entsprechenden Spalte stehen. Der Schüler versteht den Stellenwert nicht. Der Schüler addierte entweder alle Zahlen wie im ersten Beispiel oder notierte die Antwort mit umgekehrten Zahlen wie im zweiten Beispiel.
        Missverständnis der Umgruppierung: Der Schüler gruppiert sich nicht, oder er wendet die Umgruppierungsstrategien falsch an. Im ersten Beispiel hat der Schüler 8+3 korrekt hinzugefügt, aber die Spalte 𔄙” nicht in die Zehnerspalte umgruppiert. Im zweiten Beispiel fügte der Schüler entweder von links nach rechts hinzu oder gruppierte die 𔄙”-Spalte nicht in die Zehner-Spalte, sondern schrieb stattdessen 󈫻.” .
        Nicht umgruppieren mit 0: Wenn ein Problem eine oder mehrere Nullen in der obersten Zahl (Minuend) enthält, ist der Schüler unsicher, was er tun soll. Der Schüler zieht die 0 von der 3 ab, anstatt sich auszuleihen.
        Durchführen einer Fehlbedienung: Schüler subtrahieren oft, wenn sie addieren sollen oder umgekehrt. Die Schüler können jedoch auch andere falsche Operationen ausführen, z. B. Multiplizieren statt Addieren. Im ersten Beispiel hat der Schüler addiert statt subtrahiert. Im zweiten Beispiel multiplizierte der Schüler statt zu addieren.
        Subtrahieren der kleineren Zahl von der größeren Zahl: Unabhängig von der Platzierung zieht der Student immer die kleinere von der größeren Zahl ab. In jeder Spalte subtrahiert der Schüler die kleinere Zahl von der größeren Zahl.
        Brüche addieren und subtrahieren: Der Schüler findet beim Addieren oder Subtrahieren von Brüchen keinen gemeinsamen Nenner. Der Schüler addiert die Zähler und dann die Nenner, ohne den gemeinsamen Nenner zu finden.
        Brüche dividieren: Der Schüler invertiert den zweiten Bruch nicht (benutze den Kehrwert) und multipliziere. Der Schüler invertierte die 2 nicht zu ½, bevor er multiplizierte, um die richtige Antwort von ¼ zu erhalten.
        Dezimalstellen beim Addieren oder Subtrahieren nicht ausrichten: Der Schüler ordnet die Zahlen ohne Rücksicht darauf, wo sich die Dezimalstelle befindet. Das Schülerrecht rechtfertigte die Zahlen, ohne die Dezimalstellen auszurichten. Der Schüler hat kein gutes Verständnis für den Stellenwert.
        Dezimalstellen beim Multiplizieren oder Dividieren nicht an geeigneter Stelle: Der Schüler zählt bei der endgültigen Antwort nicht die richtige Anzahl von Dezimalstellen. Wie beim Addieren oder Subtrahieren hat der Schüler die Dezimalstelle nach unten gebracht, anstatt die Anzahl der Stellen rechts von den Dezimalpunkten zu zählen.

        Häufige Arten von Rechenfehlern

        • Das Beispiel ist 7 plus 4, was der Schüler mit 13 falsch beantwortet hat.
        • Das erste Beispiel ist 28 plus 9. Die Antwort des Schülers, 19, ist falsch. Das zweite Beispiel ist 10 plus 9. Die Antwort des Schülers, 91, ist ebenfalls falsch.
        • Das erste Beispiel ist 23 plus 78. Die Antwort des Schülers, 91, ist falsch. Das zweite Beispiel ist 34 plus 57. Der Schüler antwortet falsch 811.
        • Das Beispiel ist 102 minus 31. Der Schüler antwortet falsch 131.
        • Das erste Beispiel ist 234 minus 45, was der Schüler 279 falsch antwortet. Das zweite Beispiel ist 3 plus 2. Die Antwort des Schülers, 6, ist falsch.
        • Das Beispiel ist 321 plus 245. Der Schüler antwortet falsch mit 124.
        • Das Beispiel ist ¾ plus 1/3, was der Schüler als 4/7 antwortet.
        • Die Gleichung im Beispiel lautet ½ geteilt durch 2 gleich ½ mal 2/1 gleich 2/2 gleich 1.
        • Das Beispiel ist 6,45 plus 72,1, was der Schüler mit 137,5 falsch beantwortet hat.
        • Das Beispiel ist 7,2 mal 0,3. Die Antwort des Schülers 21,6 ist falsch.

        Nachdem Sie nun verschiedene Arten von häufig auftretenden mathematischen Fehlern überprüft haben, gehen wir Coles Arbeitsblatt von oben noch einmal durch. Klicken Sie hier, um das Arbeitsblatt anzuzeigen.

        Beachten Sie, dass die einzigen Probleme, die Cole falsch beantwortete, Subtraktionsprobleme waren. Bei der Analyse dieser Probleme scheint es, als ob er immer die kleinere Zahl von der größeren Zahl subtrahiert, unabhängig davon, ob die kleinere Zahl oben (Minuend) oder unten (Subtrahend) steht. Die ersten drei Probleme, die er falsch beantwortet hat, sind in der folgenden Tabelle beschrieben.

        In der Einerspalte hat Cole 7 von 9 subtrahiert, anstatt 9 von 7 zu subtrahieren. Da er nicht geliehen hat, ist auch die Ziffer der Zehnerspalte falsch.

        Aus Coles Arbeitsblatt analysierte Probleme

        • Das Problem ist 47 minus 39. Cole hat 12 geantwortet.
        • Das Problem ist 154 minus 80. Cole hat 134 geantwortet.
        • Das Problem ist 406 minus 295. Cole hat 291 geantwortet.

        Lehrer können auch eine Fehleranalyse für algebraische Probleme durchführen. Klicke hier, um anzusehen Systematische Analyse von Schülerfehlern, ein Werkzeug, das Lehrer verwenden können, um die Arten von Fehlern zu identifizieren, die Schüler bei der Lösung von Algebra-Problemen regelmäßig machen.


        Inhalt

        Intuition Bearbeiten

        Die der TDA zugrunde liegende Prämisse ist, dass die Form wichtig ist. Echte Daten in hohen Dimensionen sind fast immer spärlich und weisen tendenziell relevante niedrigdimensionale Merkmale auf. Diesen Sachverhalt genau zu charakterisieren, ist eine Aufgabe der TDA. Ein anschauliches Beispiel ist ein einfaches Räuber-Beute-System, das von den Lotka-Volterra-Gleichungen bestimmt wird. [1] Man kann leicht beobachten, dass die Trajektorie des Systems im Zustandsraum einen geschlossenen Kreis bildet. TDA bietet Werkzeuge zum Erkennen und Quantifizieren solcher wiederkehrender Bewegungen. [2]

        Viele Algorithmen zur Datenanalyse, einschließlich der in der TDA verwendeten, erfordern die Wahl verschiedener Parameter. Ohne vorherige Domänenkenntnisse ist es schwierig, die richtige Sammlung von Parametern für einen Datensatz auszuwählen. Die Haupterkenntnis der persistenten Homologie besteht darin, dass wir die aus allen Werten eines Parameters erhaltenen Informationen verwenden können. Natürlich ist diese Einsicht allein leicht zu machen, der schwierige Teil besteht darin, diese riesige Menge an Informationen in eine verständliche und leicht darstellbare Form zu bringen. Bei TDA gibt es eine mathematische Interpretation, wenn die Information eine Homologiegruppe ist. Im Allgemeinen wird davon ausgegangen, dass Merkmale, die für eine Vielzahl von Parametern bestehen bleiben, "echte" Merkmale sind. Merkmale, die nur für einen engen Parameterbereich bestehen bleiben, werden als Rauschen angenommen, obwohl die theoretische Begründung dafür unklar ist. [3]

        Frühgeschichte Bearbeiten

        Vorläufer des vollständigen Konzepts der persistenten Homologie traten im Laufe der Zeit allmählich auf. [4] 1990 führte Patrizio Frosini die Größenfunktion ein, die der 0. persistenten Homologie entspricht. [5] Fast ein Jahrzehnt später untersuchte Vanessa Robins die Bilder von Homomorphismen, die durch Inklusion hervorgerufen wurden. [6] Schließlich haben Edelsbrunner et al. stellten das Konzept der persistenten Homologie zusammen mit einem effizienten Algorithmus und dessen Visualisierung als Persistenzdiagramm vor. [7] Carlsson et al. formulierte die ursprüngliche Definition neu und gab eine äquivalente Visualisierungsmethode namens Persistenz-Barcodes [8] an, die Persistenz in der Sprache der kommutativen Algebra interpretiert. [9]

        In der algebraischen Topologie ist die persistente Homologie durch die Arbeit von Sergey Barannikov über die Morsetheorie entstanden. Der Satz kritischer Werte der glatten Morsefunktion wurde kanonisch in Paare "Geburt-Tod" unterteilt, gefilterte Komplexe wurden klassifiziert, ihre Invarianten, äquivalent zum Persistenzdiagramm und Persistenzbarcodes, zusammen mit dem effizienten Algorithmus zu ihrer Berechnung wurden unter dem Namen beschrieben der kanonischen Formen 1994 von Barannikov. [10] [11]

        Konzepte Bearbeiten

        Im Folgenden werden einige weit verbreitete Konzepte vorgestellt. Beachten Sie, dass einige Definitionen von Autor zu Autor variieren können.

        EIN Punktwolke wird oft als endliche Menge von Punkten in einem euklidischen Raum definiert, kann aber auch als jeder endliche metrische Raum angesehen werden.

        Das ech-Komplex einer Punktwolke ist die Nerv des Startseite von Kugeln mit einem festen Radius um jeden Punkt in der Wolke.

        Grundeigenschaft Bearbeiten

        Struktursatz Bearbeiten

        Der erste Klassifikationssatz für persistente Homologie erschien 1994 [10] über die kanonischen Formen von Barannikov. Der Klassifikationssatz, der Persistenz in der Sprache der kommutativen Algebra interpretiert, erschien 2005: [9] für ein endlich generiertes Persistenzmodul C mit Feld F Koeffizienten,

        Die persistente Homologie wird durch einen Strichcode oder ein Persistenzdiagramm visualisiert. Der Strichcode hat seine Wurzeln in der abstrakten Mathematik. Die Kategorie endlicher gefilterter Komplexe über einem Körper ist nämlich halbeinfach. Jeder gefilterte Komplex ist zu seiner kanonischen Form isomorph, eine direkte Summe von ein- und zweidimensionalen einfachen gefilterten Komplexen.

        Stabilität Bearbeiten

        Workflow-Bearbeitung

        Der grundlegende Arbeitsablauf in TDA ist: [16]

        Der erste Algorithmus über alle Felder für persistente Homologie in algebraischer Topologieumgebung wurde von Barannikov [10] durch Reduktion auf die kanonische Form durch obere Dreiecksmatrizen beschrieben. Der erste Algorithmus für persistente Homologie über F 2 > wurde von Edelsbrunner et al. [7] Zomorodian und Carlsson stellten den ersten praktischen Algorithmus zur Berechnung einer persistenten Homologie über alle Felder vor. [9] Das Buch von Edelsbrunner und Harer gibt allgemeine Hinweise zur Computertopologie. [18]

        Ein Problem, das bei der Berechnung auftaucht, ist die Wahl des Komplexes. Der Čech-Komplex und der Vietoris-Rips-Komplex sind auf den ersten Blick am natürlichsten, ihre Größe wächst jedoch schnell mit der Anzahl der Datenpunkte. Der Vietoris-Rips-Komplex wird dem Čech-Komplex vorgezogen, weil seine Definition einfacher ist und der Čech-Komplex zusätzlichen Aufwand erfordert, um in einem allgemeinen endlichen metrischen Raum zu definieren. Effiziente Wege zur Senkung der Rechenkosten der Homologie wurden untersucht. Beispielsweise werden der α-Komplex und der Zeugenkomplex verwendet, um die Dimension und Größe von Komplexen zu reduzieren. [19]

        Vor kurzem hat sich die diskrete Morsetheorie als vielversprechend für die computergestützte Homologie erwiesen, da sie einen gegebenen simplizialen Komplex auf einen viel kleineren zellulären Komplex reduzieren kann, der zum ursprünglichen homotop ist. [20] Diese Reduktion kann tatsächlich durchgeführt werden, da der Komplex unter Verwendung der Matroid-Theorie konstruiert wird, was zu weiteren Leistungssteigerungen führt. [21] Ein anderer neuerer Algorithmus spart Zeit, indem er die Homologieklassen mit geringer Persistenz ignoriert. [22]

        Es stehen verschiedene Softwarepakete wie javaPlex, Dionysus, Perseus, PHAT, DIPHA, GUDHI, Ripser und TDAstats zur Verfügung. Ein Vergleich zwischen diesen Werkzeugen wird von Otter et al. [23] Giotto-tda ist ein Python-Paket, das sich der Integration von TDA in den maschinellen Lernworkflow mithilfe einer scikit-learn-API widmet. Ein R-Paket-TDA ist in der Lage, neu erfundene Konzepte wie Landscape und den Kernel Distance Estimator zu berechnen. [24] Das Topology ToolKit ist auf kontinuierliche Daten spezialisiert, die auf Mannigfaltigkeiten niedriger Dimension (1, 2 oder 3) definiert sind, wie sie typischerweise in der wissenschaftlichen Visualisierung zu finden sind. Ein weiteres R-Paket, TDAstats, implementiert die Ripser-Bibliothek, um persistente Homologie zu berechnen. [25]

        Hochdimensionale Daten lassen sich nicht direkt visualisieren. Es wurden viele Methoden erfunden, um eine niedrigdimensionale Struktur aus dem Datensatz zu extrahieren, wie beispielsweise die Hauptkomponentenanalyse und die mehrdimensionale Skalierung. [26] Es ist jedoch wichtig anzumerken, dass das Problem selbst falsch gestellt ist, da viele verschiedene topologische Merkmale im selben Datensatz gefunden werden können. Thus, the study of visualization of high-dimensional spaces is of central importance to TDA, although it does not necessarily involve the use of persistent homology. However, recent attempts have been made to use persistent homology in data visualization. [27]

        Carlsson et al. have proposed a general method called MAPPER. [28] It inherits the idea of Serre that a covering preserves homotopy. [29] A generalized formulation of MAPPER is as follows:

        This is not quite the original definition. [28] Carlsson et al. choose Z to be R > or R 2 ^<2>> , and cover it with open sets such that at most two intersect. [3] This restriction means that the output is in the form of a complex network. Because the topology of a finite point cloud is trivial, clustering methods (such as single linkage) are used to produce the analogue of connected sets in the preimage f − 1 ( U ) (U)> when MAPPER is applied to actual data.

        Three successful applications of MAPPER can be found in Carlsson et al. [33] A comment on the applications in this paper by J. Curry is that "a common feature of interest in applications is the presence of flares or tendrils." [34]

        A free implementation of MAPPER is available online written by Daniel Müllner and Aravindakshan Babu. MAPPER also forms the basis of Ayasdi's AI platform.

        Multidimensional persistence Edit

        Multidimensional persistence is important to TDA. The concept arises in both theory and practice. The first investigation of multidimensional persistence was early in the development of TDA, [35] . Carlsson-Zomorodian introduced the theory of multidimensional persistence in [36] and in collaboration with Singh [37] introduced the use of tools from symbolic algebra (Grobner basis methods) to compute MPH modules. Their definition presents multidimensional persistence with n parameters as a Z^n graded module over a polynomial ring in n variables. Tools from commutative and homological algebra are applied to the study of multidimensional persistence in work of Harrington-Otter-Schenck-Tillman. [38] The first application to appear in the literature is a method for shape comparison, similar to the invention of TDA. [39]

        The definition of an n-dimensional persistence module in R n ^> is [34]

        It might be worth noting that there are controversies on the definition of multidimensional persistence. [34]

        One of the advantages of one-dimensional persistence is its representability by a diagram or barcode. However, discrete complete invariants of multidimensional persistence modules do not exist. [40] The main reason for this is that the structure of the collection of indecomposables is extremely complicated by Gabriel's theorem in the theory of quiver representations, [41] although a finitely n-dim persistence module can be uniquely decomposed into a direct sum of indecomposables due to the Krull-Schmidt theorem. [42]

        Some basic properties include monotonicity and diagonal jump. [43] Persistent Betti numbers will be finite if X is a compact and locally contractible subspace of R n ^> . [44]

        Persistent space, a generalization of persistent diagram, is defined as the multiset of all points with multiplicity larger than 0 and the diagonal. [48] It provides a stable and complete representation of PBNs. An ongoing work by Carlsson et al. is trying to give geometric interpretation of persistent homology, which might provide insights on how to combine machine learning theory with topological data analysis. [49]

        The first practical algorithm to compute multidimensional persistence was invented very early. [50] After then, many other algorithms have been proposed, based on such concepts as discrete morse theory [51] and finite sample estimating. [52]

        Other persistences Edit

        The standard paradigm in TDA is often referred as sublevel persistence. Apart from multidimensional persistence, many works have been done to extend this special case.

        Zigzag persistence Edit

        The nonzero maps in persistence module are restricted by the preorder relationship in the category. However, mathematicians have found that the unanimity of direction is not essential to many results. "The philosophical point is that the decomposition theory of graph representations is somewhat independent of the orientation of the graph edges". [53] Zigzag persistence is important to the theoretical side. The examples given in Carlsson's review paper to illustrate the importance of functorality all share some of its features. [3]

        Extended persistence and levelset persistence Edit

        Some attempts is to lose the stricter restriction of the function. [54] Please refer to the Categorification and cosheaves and Impact on mathematics sections for more information.

        It's natural to extend persistence homology to other basic concepts in algebraic topology, such as cohomology and relative homology/cohomology. [55] An interesting application is the computation of circular coordinates for a data set via the first persistent cohomology group. [56]

        Circular persistence Edit

        Normal persistence homology studies real-valued functions. The circle-valued map might be useful, "persistence theory for circle-valued maps promises to play the role for some vector fields as does the standard persistence theory for scalar fields", as commented in D. Burghelea et al. [57] The main difference is that Jordan cells (very similar in format to the Jordan blocks in linear algebra) are nontrivial in circle-valued functions, which would be zero in real-valued case, and combining with barcodes give the invariants of a tame map, under moderate conditions. [57]

        Two techniques they use are Morse-Novikov theory [58] and graph representation theory. [59] More recent results can be found in D. Burghelea et al. [60] For example, the tameness requirement can be replaced by the much weaker condition, continuous.

        Persistence with torsion Edit

        The proof of the structure theorem relies on the base domain being field, so not many attempts have been made on persistence homology with torsion. Frosini defined a pseudometric on this specific module and proved its stability. [61] One of its novelty is that it doesn't depend on some classification theory to define the metric. [62]

        Categorification and cosheaves Edit

        One advantage of category theory is its ability to lift concrete results to a higher level, showing relationships between seemingly unconnected objects. Bubenik et al. [63] offers a short introduction of category theory fitted for TDA.

        Category theory is the language of modern algebra, and has been widely used in the study of algebraic geometry and topology. It has been noted that "the key observation of [9] is that the persistence diagram produced by [7] depends only on the algebraic structure carried by this diagram." [64] The use of category theory in TDA has proved to be fruitful. [63] [64]

        One advantage of using category theory in TDA is a clearer understanding of concepts and the discovery of new relationships between proofs. Take two examples for illustration. The understanding of the correspondence between interleaving and matching is of huge importance, since matching has been the method used in the beginning (modified from Morse theory). A summary of works can be found in Vin de Silva et al. [65] Many theorems can be proved much more easily in a more intuitive setting. [62] Another example is the relationship between the construction of different complexes from point clouds. It has long been noticed that Čech and Vietoris-Rips complexes are related. Specifically, V r ( X ) ⊂ C 2 r ( X ) ⊂ V 2 r ( X ) (X)subset C_<>r>(X)subset V_<2r>(X)> . [66] The essential relationship between Cech and Rips complexes can be seen much more clearly in categorical language. [65]

        The language of category theory also helps cast results in terms recognizable to the broader mathematical community. Bottleneck distance is widely used in TDA because of the results on stability with respect to the bottleneck distance. [12] [15] In fact, the interleaving distance is the terminal object in a poset category of stable metrics on multidimensional persistence modules in a prime field. [62] [67]

        Sheaves, a central concept in modern algebraic geometry, are intrinsically related to category theory. Roughly speaking, sheaves are the mathematical tool for understanding how local information determines global information. Justin Curry regards level set persistence as the study of fibers of continuous functions. The objects that he studies are very similar to those by MAPPER, but with sheaf theory as the theoretical foundation. [34] Although no breakthrough in the theory of TDA has yet used sheaf theory, it is promising since there are many beautiful theorems in algebraic geometry relating to sheaf theory. For example, a natural theoretical question is whether different filtration methods result in the same output. [68]

        Stability Edit

        Stability is of central importance to data analysis, since real data carry noises. By usage of category theory, Bubenik et al. have distinguished between soft and hard stability theorems, and proved that soft cases are formal. [64] Specifically, general workflow of TDA is

        The soft stability theorem asserts that H F is Lipschitz continuous, and the hard stability theorem asserts that J is Lipschitz continuous.

        These two results summarize many results on stability of different models of persistence.

        For the stability theorem of multidimensional persistence, please refer to the subsection of persistence.

        Structure theorem Edit

        The structure theorem is of central importance to TDA as commented by G. Carlsson, "what makes homology useful as a discriminator between topological spaces is the fact that there is a classification theorem for finitely generated abelian groups." [3] (see the fundamental theorem of finitely generated abelian groups).

        The main argument used in the proof of the original structure theorem is the standard structure theorem for finitely generated modules over a principal ideal domain. [9] However, this argument fails if the indexing set is ( R , ≤ ) ,leq )> . [3]

        In general, not every persistence module can be decomposed into intervals. [70] Many attempts have been made at relaxing the restrictions of the original structure theorem. [ Klärung nötig ] The case for pointwise finite-dimensional persistence modules indexed by a locally finite subset of R > is solved based on the work of Webb. [71] The most notable result is done by Crawley-Boevey, which solved the case of R > . Crawley-Boevey's theorem states that any pointwise finite-dimensional persistence module is a direct sum of interval modules. [72]

        Although the result of Crawley-Boevey is a very powerful theorem, it still doesn't extend to the q-tame case. [70] A persistence module is q-tame if the rank of ρ s t ^> is finite for all s < t . There are examples of q-tame persistence modules that fail to be pointwise finite. [74] However, it turns out that a similar structure theorem still holds if the features that exist only at one index value are removed. [73] This holds because the infinite dimensional parts at each index value do not persist, due to the finite-rank condition. [75] Formally, the observable category O b > is defined as P e r s / E p h /mathrm > , in which E p h > denotes the full subcategory of P e r s > whose objects are the ephemeral modules ( ρ s t = 0 ^=0> whenever s < t ). [73]

        Note that the extended results listed here do not apply to zigzag persistence, since the analogue of a zigzag persistence module over R > is not immediately obvious.

        Statistics Edit

        Real data is always finite, and so its study requires us to take stochasticity into account. Statistical analysis gives us the ability to separate true features of the data from artifacts introduced by random noise. Persistent homology has no inherent mechanism to distinguish between low-probability features and high-probability features.

        One way to apply statistics to topological data analysis is to study the statistical properties of topological features of point clouds. The study of random simplicial complexes offers some insight into statistical topology. K. Turner et al. [76] offers a summary of work in this vein.

        A third way is to consider the cohomology of probabilistic space or statistical systems directly, called information structures and basically consisting in the triple ( Ω , Π , P ), sample space, random variables and probability laws. [82] [83] Random variables are considered as partitions of the n atomic probabilities (seen as a probability (n-1)-simplex, | Ω | = n ) on the lattice of partitions ( Π n > ). The random variables or modules of measurable functions provide the cochain complexes while the coboundary is considered as the general homological algebra first discovered by Hochschild with a left action implementing the action of conditioning. The first cocycle condition corresponds to the chain rule of entropy, allowing to derive uniquely up to the multiplicative constant, Shannon entropy as the first cohomology class. The consideration of a deformed left-action generalises the framework to Tsallis entropies. The information cohomology is an example of ringed topos. Multivariate k-Mutual information appear in coboundaries expressions, and their vanishing, related to cocycle condition, gives equivalent conditions for statistical independence. [84] Minima of mutual-informations, also called synergy, give rise to interesting independence configurations analog to homotopical links. Because of its combinatorial complexity, only the simplicial subcase of the cohomology and of information structure has been investigated on data. Applied to data, those cohomological tools quantifies statistical dependences and independences, including Markov chains and conditional independence, in the multivariate case. [85] Notably, mutual-informations generalize correlation coefficient and covariance to non-linear statistical dependences. These approaches were developed independently and only indirectly related to persistence methods, but may be roughly understood in the simplicial case using Hu Kuo Tin Theorem that establishes one-to-one correspondence between mutual-informations functions and finite measurable function of a set with intersection operator, to construct the Čech complex skeleton. Information cohomology offers some direct interpretation and application in terms of neuroscience (neural assembly theory and qualitative cognition [86] ), statistical physic, and deep neural network for which the structure and learning algorithm are imposed by the complex of random variables and the information chain rule. [87]

        Classification of applications Edit

        More than one way exists to classify the applications of TDA. Perhaps the most natural way is by field. A very incomplete list of successful applications includes [91] data skeletonization, [92] shape study, [93] graph reconstruction, [94] [95] [96] [97] [98] image analysis, [99] [100] material, [101] progression analysis of disease, [102] [103] sensor network, [66] signal analysis, [104] cosmic web, [105] complex network, [106] [107] [108] [109] fractal geometry, [110] viral evolution, [111] propagation of contagions on networks , [112] bacteria classification using molecular spectroscopy, [113] hyperspectral imaging in physical-chemistry [114] and remote sensing. [115]

        Another way is by distinguishing the techniques by G. Carlsson, [77]

        one being the study of homological invariants of data one individual data sets, and the other is the use of homological invariants in the study of databases where the data points themselves have geometric structure.

        Characteristics of TDA in applications Edit

        There are several notable interesting features of the recent applications of TDA:

        1. Combining tools from several branches of mathematics. Besides the obvious need for algebra and topology, partial differential equations, [116] algebraic geometry, [40] representation theory, [53] statistics, combinatorics, and Riemannian geometry [75] have all found use in TDA.
        2. Quantitative analysis. Topology is considered to be very soft since many concepts are invariant under homotopy. However, persistent topology is able to record the birth (appearance) and death (disappearance) of topological features, thus extra geometric information is embedded in it. One evidence in theory is a partially positive result on the uniqueness of reconstruction of curves [117] two in application are on the quantitative analysis of Fullerene stability and quantitative analysis of self-similarity, separately. [110][118]
        3. The role of short persistence. Short persistence has also been found to be useful, despite the common belief that noise is the cause of the phenomena. [119] This is interesting to the mathematical theory.

        One of the main fields of data analysis today is machine learning. Some examples of machine learning in TDA can be found in Adcock et al. [120] A conference is dedicated to the link between TDA and machine learning. In order to apply tools from machine learning, the information obtained from TDA should be represented in vector form. An ongoing and promising attempt is the persistence landscape discussed above. Another attempt uses the concept of persistence images. [121] However, one problem of this method is the loss of stability, since the hard stability theorem depends on the barcode representation.

        Impact on mathematics Edit

        Topological data analysis and persistent homology have had impacts on Morse theory. Morse theory has played a very important role in the theory of TDA, including on computation. Some work in persistent homology has extended results about Morse functions to tame functions or, even to continuous functions. A forgotten result of R. Deheuvels long before the invention of persistent homology extends Morse theory to all continuous functions. [122]

        One recent result is that the category of Reeb graphs is equivalent to a particular class of cosheaf. [123] This is motivated by theoretical work in TDA, since the Reeb graph is related to Morse theory and MAPPER is derived from it. The proof of this theorem relies on the interleaving distance.

        Persistent homology is closely related to spectral sequences. [124] [125] In particular the algorithm bringing a filtered complex to its canonical form [10] permits much faster calculation of spectral sequences than the standard procedure of calculating E p , q r ^> groups page by page. Zigzag persistence may turn out to be of theoretical importance to spectral sequences.


        Schau das Video: . Definition und Eigenschaften der Fundamentalgruppe Teil 2 von 2 (November 2021).