Wir freuen uns, die Remodel 2022 am 19. Juli und virtuell vom 20. bis 28. Juli wieder persönlich zu präsentieren. Nehmen Sie an aufschlussreichen Gesprächen und spannenden Networking-Möglichkeiten teil. Registrieren Sie sich heute!

Viele Datenbanken sind mit Informationen gef√ľllt, die sorgf√§ltig in Zeilen und Spalten organisiert sind. Der Typ und die Rolle f√ľr jedes Teil sind vordefiniert und werden oft durch Software program erzwungen, die die Daten vor und nach dem Speichern √ľberpr√ľft. Das Studium dieser Tabellen zur Gewinnung von Erkenntnissen ist f√ľr Knowledge Scientists relativ einfach und unkompliziert.

Einigen Datenquellen fehlt es jedoch an vorhersagbarer Reihenfolge, aber das bedeutet nicht, dass sie nicht n√ľtzlich sein k√∂nnen. Die h√§ufigste Quelle in diesem Sinne sind menschenlesbare Datentexte, die in menschlichen Sprachen geschrieben sind. Abgesehen von den Grundregeln der Grammatik und einigen Konventionen des Geschichtenerz√§hlens und des Journalismus gibt es keine kleine offensichtliche Struktur, die verwendet werden kann, um die Informationen zu verstehen und sie in solide Daten umzuwandeln.

Andere potenzielle Quellen f√ľr unstrukturierte Informationen stammen aus der automatischen Erfassung, h√§ufig aus der Telemetrie von Good Units. Die aufkeimende Welt des Internets der Dinge (IoT) produziert Petabytes an Informationen, die gr√∂√ütenteils unstrukturiert sind. Diese Dateien k√∂nnen ein einfaches Format mit einigen vordefinierten Feldern f√ľr Zeitstempel haben, aber die Messwerte von den Sensoren kommen h√§ufig in Rohform mit wenig oder keiner Klassifizierung oder Interpretation an.

Einige Wissenschaftler der k√ľnstlichen Intelligenz (KI) sind darauf spezialisiert, aus sogenannten unstrukturierten Daten einen Sinn zu machen. In gewisser Weise haben alle Datendateien eine gewisse Struktur oder Regeln, und die Herausforderung besteht darin, √ľber diese Struktur hinaus zu schauen, um tiefere Einblicke zu erhalten.

Wie werden unstrukturierte Daten analysiert?

Die Ans√§tze sind weitgehend statistisch. Die Algorithmen suchen nach Mustern oder Beziehungen zwischen verschiedenen Eintr√§gen. Finden sich dieselben W√∂rter normalerweise in demselben Satz oder Absatz? Steigt ein Wert eines Sensors kurz vor einem anderen an? Sind einige Farben in einem Bild √ľblich?

Viele moderne Algorithmen erlegen der Datenquelle eine zus√§tzliche grundlegende Strukturebene auf, ein Prozess, der h√§ufig als Einbetten der Daten oder Erstellen einer Einbettung bezeichnet wird. Beispielsweise kann ein Textual content nach den 10.000 h√§ufigsten W√∂rtern durchsucht werden, die in anderen B√ľchern oder Quellen nicht vorkommen. Ein Bild kann in Abschnitte unterteilt werden. Diese grobe Struktur bildet die Grundlage f√ľr sp√§tere statistische Analysen.

Die Erstellung dieser Einbettungen ist oft ebenso eine Kunst wie eine Wissenschaft. Ein Großteil der Arbeit von Datenwissenschaftlern besteht darin, verschiedene Strategien zum Erstellen der groben Einbettung zu entwerfen und zu testen.

In vielen F√§llen kann Dom√§nenexpertise es einem Menschen erm√∂glichen, sein Verst√§ndnis aus dem Bereich auf den Algorithmus zu √ľbertragen. Beispielsweise kann ein Arzt entscheiden, dass alle Blutdruckwerte √ľber einem bestimmten Wert als ‚Äěhoch‚Äú eingestuft werden sollten. Ein Versicherungssachverst√§ndiger kann entscheiden, dass alle Auffahrunf√§lle die Schuld des nachfolgenden Autos sind. Diese Regeln bringen Struktur in die Einbettungen und die Daten, um sie zu klassifizieren.

[Related: The data that will change the world is scattered all around us ]

Was sind die Ziele f√ľr unstrukturierte KI?

Die Ziele variieren von Domäne zu Domäne. Eine häufige Anforderung ist es, ähnliche Artikel in einer Datenbank zu finden. Ist in dieser Fotosammlung ein ähnliches Gesicht zu finden? Ist dieser Textual content ein Plagiat aus einem Buch? Gibt es eine andere Particular person mit einem ähnlichen Lebenslauf?

Andere versuchen, Vorhersagen f√ľr die Zukunft zu machen, um einem Unternehmen bei der Planung zu helfen. Dies kann bedeuten, vorherzusagen, wie viele Autos im n√§chsten Jahr verkauft werden oder wie sich die Wetterbedingungen auf die Nachfrage auswirken k√∂nnten. Diese Arbeit ist oft viel anspruchsvoller als die Suche nach √§hnlichen Eintr√§gen.

Einige arbeiten ausschlie√ülich, um Daten zu klassifizieren. Sicherheitsforscher wollen beispielsweise mithilfe von KI nach Anomalien in den Logfiles suchen, die es zu untersuchen gilt. Auf der anderen Seite m√ľssen Bankprogrammierer aufgrund von Vorschriften, die von Aufsichtsbeh√∂rden auferlegt werden, m√∂glicherweise potenziell betr√ľgerische oder verd√§chtige Transaktionen kennzeichnen. Einige Klassifizierungsalgorithmen funktionieren, um die Daten einfach zu codieren. Dar√ľber hinaus k√∂nnen beispielsweise Bildverarbeitungsalgorithmen Gesichter betrachten und versuchen zu klassifizieren, ob die Menschen gl√ľcklich, traurig, w√ľtend, besorgt oder irgendetwas anderes sind Reihe von Emotionen.

Wie arbeiten einige große Unternehmen mit unstrukturierten Daten?

Die gro√üen Cloud-Unternehmen haben ihre erweitert Cloud-Providers zur Unterst√ľtzung der Erstellung von Knowledge Lakes aus unstrukturierten Daten. Die Anbieter bieten alle verschiedene Speicherl√∂sungen an, die eng mit ihren verschiedenen KI-Diensten gekoppelt sind, um die Daten in aussagekr√§ftige Erkenntnisse umzuwandeln.

Microsofts Azure KI verwendet eine Mischung aus Textanalyse, optischer Zeichenerkennung, Spracherkennung und maschinellem Sehen, um eine unstrukturierte Sammlung von Dateien zu verstehen, die Texte oder Bilder sein k√∂nnen. Es ist Kognitiver Suchdienst erstellt einen sprachbewussten Index der Daten, um die Suche zu leiten und die relevantesten Dokumente zu finden. Algorithmen f√ľr maschinelles Lernen werden in die traditionelle Textsuche integriert, um sich auf wichtige Begriffe wie Personennamen oder Schl√ľsselphrasen zu konzentrieren. Es ist Data-Mining-Algorithmen sind von Datenwissenschaftlern einstellbar, um tiefergehende Studien der Daten zu erm√∂glichen. Der Cognitive Search Service ist ein geb√ľndeltes Produkt, aber die verschiedenen Algorithmen f√ľr maschinelles Lernen und Suche sind auch unabh√§ngig voneinander verf√ľgbar.

Google bietet eine breite Palette von Instruments an, um Daten zu speichern und verschiedene Algorithmen der k√ľnstlichen Intelligenz darauf anzuwenden. Viele der Instruments sind excellent f√ľr die Verwendung unstrukturierter Daten. AutoMLwurde beispielsweise entwickelt, um die Erstellung von Modellen f√ľr maschinelles Lernen zu vereinfachen, und ist direkt in eine Reihe von Datenspeicheroptionen von Google integriert, um Knowledge Lakes zu erm√∂glichen. Imaginative and prescient KI kann Bilder analysieren, Texte entschl√ľsseln und sogar die Emotionen von Menschen in den Bildern klassifizieren. Das Nat√ľrliche Cloud-Sprache kann Schl√ľsselpassagen, dom√§nenspezifische W√∂rter finden und W√∂rter √ľbersetzen. Alle werden als Cloud-Produkte verkauft und nach Nutzung abgerechnet.

IBM unterst√ľtzt auch den Aufbau von Knowledge Warehouses und Knowledge Lakes mit Instruments f√ľr die Datenspeicherung und -analyse, die die wichtigsten Algorithmen aus statistischer Analyse und k√ľnstlicher Intelligenz umfassen. Einige seiner Produkte b√ľndeln mehrere dieser Optionen zu aufgabenorientierten Instruments. Groups, die beispielsweise nach Predictive Analytics suchen, k√∂nnten ihre verwenden SPSS-Statistiken Paket zusammen mit Watson AI Studio Modelle f√ľr zuk√ľnftiges Verhalten zu schaffen. Die Technologien sind in Speicheroptionen von IBM wie die Datenbank db2 integriert und k√∂nnen entweder vor Ort installiert oder in der Cloud verwendet werden.

AWS unterst√ľtzt das Erstellen von Knowledge Lakes f√ľr unstrukturierte Daten mit einer Vielzahl von Produkten. Die Firmen Rotverschiebung Das Instrument kann beispielsweise Daten aus einer Vielzahl von Quellen suchen und analysieren, vom S3-Objektspeicher bis hin zu strukturierteren SQL-Datenbanken. Es vereinfacht die Arbeit mit komplexen Architekturen mit einer einzigen Schnittstelle. Amazon bietet auch eine Vielzahl von maschinelles Lernen, maschinelles Sehen und Dienstleistungen der k√ľnstlichen Intelligenz das funktioniert mit all seinen Datenspeicheroptionen. Diese sind im Allgemeinen entweder als dedizierte Instanzen oder manchmal als serverlose Optionen verf√ľgbar, die nur bei Verwendung in Rechnung gestellt werden.

Oracle bietet auch eine breite Palette von Instruments f√ľr k√ľnstliche Intelligenz an. Das Oracle Cloud Infrastructure (OCI) f√ľr Sprache ist f√ľr die Klassifizierung von unstrukturiertem Textual content optimiert, indem nach wichtigen Phrasen und Entit√§ten gesucht wird. Es kann Sprachen erkennen, mit der √úbersetzung beginnen und die Stimmung des Autors klassifizieren. Das Datenintegration device bringt die gesamte Leistungsf√§higkeit der k√ľnstlichen Intelligenz in ein codefreies Instrument f√ľr Datenanalyse und Berichterstellung. Eine Sammlung vorgefertigter Modelle kann mit Standardsprachen arbeiten, w√§hrend einige Groups dies m√∂glicherweise m√∂chten eigene Modelle erstellen.

[Related: How to master the data lifecycle for successful AI]

Wie zielen Startups auf unstrukturierte Daten ab?

Etwas Sinn machen unstrukturierte Daten steht im Mittelpunkt vieler Startups, die sich auf k√ľnstliche Intelligenz, maschinelles Lernen u Verarbeitung nat√ľrlicher Sprache. Einige konzentrieren sich darauf, bessere Algorithmen mit tieferen Einblicken zu entwickeln, und andere erstellen bessere Modelle, die direkt auf Probleme angewendet werden k√∂nnen.

Das Feld hat eine nat√ľrliche √úberschneidung mit Knowledge Science und Predictive Analytics. Der Prozess, Einblicke in Textual content- und Bilddaten zu gewinnen, ist eine nat√ľrliche Erg√§nzung zum Erstellen von Berichten und zum Generieren von Vorhersagen aus strukturierteren Daten.

Einige Startups konzentrieren sich darauf, die Instruments bereitzustellen, damit Entwickler ihre eigenen Modelle erstellen k√∂nnen, indem sie direkt mit den Daten arbeiten. Firmen m√∂gen Eichh√∂rnchen, TeX-KI, RapidMiner, Indico, Dateniku, Alteryx und H2O AI sind nur einige Unternehmen, die die Grundlage f√ľr die Durchf√ľhrung von KI-Experimenten mit eigenen Daten bilden.

Ein besonderer Schwerpunkt liegt auf der Verarbeitung nat√ľrlicher Sprache. Gesicht umarmen hat eine Plattform geschaffen, auf der Unternehmen ihre Modelle mit anderen teilen k√∂nnen, ein Prozess, der die Entwicklung anspruchsvoller, allgemeinerer Modelle mit breiten F√§higkeiten f√∂rdert.

Foundation Know-how erstellt auch Instruments, die signifikante Namen und Entitäten in unstrukturiertem Textual content identifizieren. Ihr Produkt Rosette sucht nach Beziehungen zwischen den Identitäten und erstellt semantische Karten zwischen ihnen.

Andere kommerzialisieren ihre eigenen Modelle und verkaufen sie direkt weiter. OpenAI erstellt ein gro√ües Modell der menschlichen Sprache, GPT-3, und er√∂ffnet den Zugriff √ľber eine API, sodass Entwickler seine Funktionen hinzuf√ľgen k√∂nnen. Es ist excellent f√ľr Arbeiten wie Copywriting, Textklassifizierung und Textzusammenfassung. Das Unternehmen baut auch eine Sammlung von Buchzusammenfassungen auf. GitHubverwendet beispielsweise OpenAI-Technologie in seinem CoPilot-Instrument, das wie ein intelligenter Assistent fungiert, der Programmierern hilft, mehr Code schneller zu schreiben.

Koh√§rente KI baut auch ein eigenes Modell und √∂ffnet es √ľber eine API. Einige Entwickler verwenden das Modell, um Dokumente f√ľr Projekte wie die Unterst√ľtzung bei Rechtsstreitigkeiten zu klassifizieren. Andere verwenden das Modell, um Autoren dabei zu helfen, die richtigen Worte zu finden und bessere Dokumente zu erstellen.

Einige konzentrieren sich auf die nat√ľrlichen Sprachmodelle, um bei bestimmten Aufgaben zu helfen. Dubaut beispielsweise eine neue Suchmaschine, die den Benutzern mehr Kontrolle bietet und sich gleichzeitig auf eine intelligentere KI verl√§sst, um Bedeutungen zu extrahieren und die besten Antworten zu finden. Andere packen √§hnliche Ans√§tze als APIs f√ľr Entwickler. ZIR und Algolei bauen eine steckbare Suchmaschine mit semantischen Modellen, die eine bessere Leistung erbringen als die reine Stichwortsuche.

Einige der Startups wollen die Leistungsf√§higkeit der Algorithmen in bestimmte Branchen oder Nischen bringen. Sie k√∂nnen anzapfen unstrukturierte Daten als Teil eines gr√∂√üeren Fokus auf die L√∂sung klar umrissener Probleme f√ľr ihren Zielmarkt. N√§mlich KIerstellt beispielsweise einen intelligenten Pflegekoordinator zur Verfolgung von Patienten in verschiedenen Stadien der Genesung. Sicher hofft, die Identit√§tspr√ľfung und Betrugserkennung f√ľr Banken und andere Branchen zu verbessern, die versuchen, zwischen authentischem und nicht authentischem Verhalten zu unterscheiden. KI √ľbersteigen erschafft virtuelle Verkaufsassistenten die Kunden helfen, Antworten und Produkte zu finden.

Was KI und unstrukturierte Daten nicht können

Die gr√∂√üte Einschr√§nkung f√ľr die Algorithmen ist die Qualit√§t jedes Indicators in den Daten. Gelegentlich bieten die Daten ‚Äď strukturiert oder unstrukturiert ‚Äď nicht viel Korrelation, die zu einer soliden Antwort auf eine bestimmte Frage f√ľhren kann. Wenn es keine signifikante Verbindung oder zu viel zuf√§lliges Rauschen gibt, gibt es kein Sign, das die Algorithmen identifizieren k√∂nnen.

Diese Herausforderung ist bei unstrukturierten Daten von größerer Bedeutung, da zusätzliche, nicht hilfreiche Bits eher Teil der Informationen sind. Obwohl die Algorithmen darauf ausgelegt sind, die Informationen zu sichten und die nicht hilfreichen Teile auszuschließen, sind ihrer Leistungsfähigkeit immer noch Grenzen gesetzt. In der Regel gibt es viel mehr Rauschen unstrukturierte Daten.

Das Drawback wird durch den Wert verstärkt, ein schwaches Sign zu finden. Wenn ein Ereignis nicht sehr häufig auftritt, bringt die Erkennung möglicherweise keinen großen Gewinn. Selbst wenn die Algorithmen erfolgreich sind, zahlt sich manche unstrukturierte Datenanalyse nicht aus, weil der Erfolg zu selten ist.

H√§ufig f√ľhren schlecht definierte Fragen zu mehrdeutigen Ergebnissen. Einige n√§hern sich unstrukturierten Daten auf der Suche nach Erkenntnissen, aber ohne klar geschriebene Definitionen k√∂nnen die Antworten ebenso mehrdeutig sein. Eine gro√üe Herausforderung f√ľr viele unstrukturierte Projekte ist es, einfach ein klares Ziel zu definieren, damit die Modelle sein k√∂nnen genau trainiert.

[Read more: Why unstructured data is the future of data management]

An eclectic neighborhood cafe serving organic roast and a small breakfast menu. Now serving Porto's Bakery pastries! Shaded Dog-friendly seating outside.
Phone: (626) 797-9255
Pasadena, CA 91104
2057 N Los Robles Ave Unit #10