| po polsku | по русски | auf deutsch | in English |
|---|
Die Forschung zu spezifischen Anwendungen der KI war eng mit der Entwicklung von neuen Methoden und Algorithmen verbunden. Insbesondere erarbeiteten wir Inferenz- und Lerntheorien für unsichere und unvollständige Informationen (einschließlich Bayes-scher Netzwerke und der Dempster-Shafer-Theorie), neue naturinspirierte Optimierungsmethoden (darunter Immunnetzwerke, Herde-, genetische und Extremoptimierung-Algorithmen) und andere. Derzeit hat sich die Forschungsgruppe der aktuellen und wichtigen Herausforderung gestellt, Methoden der erklärbaren künstlichen Intelligenz (XAI) zu entwickeln. XAI ist eine Antwort auf die Einwände der Industrie, daß Methoden der künstlichen Intelligenz wie tiefe neuronale Netze, evolutionäre Algorithmen und andere nach dem Prinzip einer "schwarzen Kiste" funktionieren, während nur transparenten Methoden vertraut wird. Unsere Forschungsgruppe hat sich einer besonders schwierigen Herausforderung gewidmet, nämlich Erzielung von Erklärbarkeit im Bereich der Clusteranalyse von Textdokumenten, insbesondere solchen, die mit Spektralmethoden geclustert wurden. Die grundlegende Schwierigkeit liegt im Fehlen eines kohärenten axiomatischen Systems zur Clusteranalyse. Das Problem ist im Bereich der Spektralmethoden noch gravierender, weil man dort mit der Loslösung der Darstellung von Clustern vom Textinhalt von Dokumenten zu kämpfen hat. Zu unseren Erfolgen in diesem Bereich zählen:
stopped due to financial problems
Unsere Suchmaschine ist leider Opfer des Kampfes geghen Globale Erwäemung geworden. Die scharf angestiegenen Energiepreise verursachten, daß nur der kommerzielle Teil zur Generierung der Daten für das nationale Plagiat-Bekämpfungsprogramm JSA arbeitet. Der Rest ist seit Jahren abgeschaltet, um Energie zu sparen.
Es ist wirklich schade, denn das System NEKST repäsentierte den technologischen Höchststand zur Zeit seiner Entwicklung. Das Klima scheint aber wichtiger zu sein.
Die Forschungsgruppe entwickelte die massiv-parallele Suchmaschine NEKST, um die polnischen Internetressourcen auf neuartige Weise zu nutzen. Unsere Spezialität ist die Systematisierung von Online-Ressourcen und deren Visualisierung für den Nutzer. Systematisierung verstehen wir als automatische Einteilung von Online-Ressourcen in thematische Gruppen, Hervorhebung thematischer Kanäle auf Webseiten sowie die Kennzeichnung und Kategorisierung von Dokumenten und ihren Gruppen. Für den Nutzer bedeutet dies nicht nur eine präzisere Dokumentenidentifizierung, sondern auch die kontextbezogene Suche nach einzelnen Dokumenten und ihren Gruppen, wie beispielsweise Kanälen oder Diensten, sowie eine Diversifizierung der Suchergebnisse.
Unser im Rahmen des Projekts POIG.01.01.02-14-013/09 entwickeltes System NEKST ist eine innovative technologische Lösung zur großflächigen Suche und semantischen Verarbeitung von Daten aus dem polnischen Internet. In Polen gibt es rund 2,5 Millionen Websites mit über zwei Milliarden Dokumenten (2025AD).
Diese Dokumentenmenge stellt eine Herausforderung für die Datenerfassung, -indizierung und -suche dar, insbesondere da NEKST über die traditionelle Textverarbeitung hinausgeht und diese um semantische Indizierung, Kategorisierung, Klassifizierung, Faktenrecherche, automatische Erstellung von Wissensgraphen aus Online-Dokumenten, Erkennung von Duplikaten und Websites, Suche nach lexikalisch und semantisch ähnlichen Dokumenten, innovative Dokumentenanalysemethoden zur schnellen Identifizierung des Ursprungs einzelner Dokumentfragmente durch Vergleich mit allen Online-Ressourcen sowie die Fähigkeit zur Beantwortung von Anfragen in natürlicher Sprache (polnisch) erweitert. Dies erforderte die Entwicklung origineller innovativer Algorithmen und Methoden.
Das System nutzt nicht nur von Menschen erstellte semantische Ressourcen, sondern ermittelt mithilfe anspruchsvoller Textanalysemethoden und proprietärer Lösungen, welche die aus der Literatur bekannten Ansätze ergänzen. Wir haben auch Algorithmen entwickelt, die auch IS-A-Beziehungen in der eigenen Dokumentendatenbank entdecken und den Wissensgraph erweitern.
Die Entwicklung der Suchmaschine war eng mit der Entwicklung neuer, leistungsstarker Syntaxalgorithmen für die Analyse der polnischen Sprache, Clusteranalysemethoden für Dokumente und Websites, einer proprietären, leistungsstarken Dokumentendatenbank, neuen, schnellen Dokumentenranking-Methoden, welche die praktischen Schwächen des klassischen PageRank beheben, sowie der Entwicklung von technischen Lösungen für Crawler-Systeme, Indizes und mehr, verknüpft.
Die Multiskalenarchitektur, die Abdeckung des gesamten polnischen Internets und die semantische Klassifizierung machen die relevanten Komponenten des NEKST-Systems zu einem wertvollen Werkzeug für die Bereitstellung von Referenzdaten für das nationale Einheitliche Anti-Plagiat-System (JSA). Dieses ist seit 2019 in Polen ein obligatorisches Instrument zur Überprüfung der Originalität aller Diplomarbeiten an den Hochschulen und Dissertationen. Die Erstellung eines Referenzdatensatzes erfordert einerseits die Durchsuchung des gesamten polnischen Internets und andererseits das Herausfiltern irrelevanter Dokumente (z. B. von Geschäften und vielem mehr), welche die Geschwindigkeit des JSA erheblich beeinträchtigen würden.
NEKST-Daten sind entscheidend für die Erkennung von Plagiaten aus polnischen Online-Quellen, insbesondere weil diese einen erheblichen Anteil an Abschlußarbeiten ausmachen. Das System ermöglicht die effektive Suche in polnischen Online-Ressourcen – ein Ziel, das aufgrund der begrenzten Leistungsfähigkeit herkömmlicher Suchmaschinen bisher schwer zu erreichen war. Zwischen dem 1. September 2023 und dem 31. August 2024 untersuchte das JSA-System 319.656 Arbeiten, von denen 62.748 (19,6 %) Ergebnisse aus NEKST-Quellen enthielten. Bei 1,7 % der Arbeiten lag der Anteil übernommener Inhalte bei über 70 %.
Dank JSA mit der NEKST-Komponente ist die Zahl schwerwiegender Plagiatsfälle innerhalb von nur drei Jahren um ein Drittel gesunken. Dies wird zweifellos zu einer allgemeinen Verbesserung des Bildungsniveaus landesweit führen und zukünftig die technologische Entwicklung und das Wirtschaftswachstum beschleunigen.
Zusammenfassend läßt sich sagen, daß die Nutzung des NEKST-Systems folgende Vorteile gebracht hat: