po polskuпо русскиauf deutschin English

Gruppe der Grundlagenforschung auf dem Gebiet der Künstlichen Intelligenz

des Instituts für Grundlagen der Informatik der Polnischen Akademie der Wissenschaften


Unsere Forschungsgruppe


Unsere Forschung

Unsere Gruppe für Grundlagenforschung auf dem Gebiet der Künstlichen Intelligenz betreibt seit vier Jahrzehnten intensive Forschung zu den größten Herausforderungen der Künstlichen Intelligenz (auch Computational Intelligence genannt). Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das sich mit der Lösung von Problemen beschäftigt, für die es keine algorithmischen Lösungen gibt oder die rechentechnisch zu komplex sind. In diesem Sinne beteiligte sich die Forschungsgruppe an der Entwicklung eines Systems zur Analyse von Daten über die gesundheitlichen Auswirkungen der Tschernobyl-Katastrophe, eines Systems zur Unterstützung der Diagnose von Handverletzungen, eines Systems zur verteilten Wissensextraktion aus medizinischen Daten und eines Systems zur proökologischen Steuerung der Leistung des Kraftwerksnetzes, eines Systems zur Bewertung von Kandidaten für den Pilotenberuf, der ersten groß angelegten semantischen polnischsprachigen Internetsuchmaschine, eines Systems zur Bewertung der Verbraucherpreisentwicklung und vieler anderer.

Die Forschung zu spezifischen Anwendungen der KI war eng mit der Entwicklung von neuen Methoden und Algorithmen verbunden. Insbesondere erarbeiteten wir Inferenz- und Lerntheorien für unsichere und unvollständige Informationen (einschließlich Bayes-scher Netzwerke und der Dempster-Shafer-Theorie), neue naturinspirierte Optimierungsmethoden (darunter Immunnetzwerke, Herde-, genetische und Extremoptimierung-Algorithmen) und andere. Derzeit hat sich die Forschungsgruppe der aktuellen und wichtigen Herausforderung gestellt, Methoden der erklärbaren künstlichen Intelligenz (XAI) zu entwickeln. XAI ist eine Antwort auf die Einwände der Industrie, daß Methoden der künstlichen Intelligenz wie tiefe neuronale Netze, evolutionäre Algorithmen und andere nach dem Prinzip einer "schwarzen Kiste" funktionieren, während nur transparenten Methoden vertraut wird. Unsere Forschungsgruppe hat sich einer besonders schwierigen Herausforderung gewidmet, nämlich Erzielung von Erklärbarkeit im Bereich der Clusteranalyse von Textdokumenten, insbesondere solchen, die mit Spektralmethoden geclustert wurden. Die grundlegende Schwierigkeit liegt im Fehlen eines kohärenten axiomatischen Systems zur Clusteranalyse. Das Problem ist im Bereich der Spektralmethoden noch gravierender, weil man dort mit der Loslösung der Darstellung von Clustern vom Textinhalt von Dokumenten zu kämpfen hat. Zu unseren Erfolgen in diesem Bereich zählen:

Unsere Veröffentlichungen

  1. Bartl`omiej Starosta, Mieczysl`aw A. Kl`opotek, Sl`awomir T. Wierzchon`: Explainable Graph Spectral Clustering of Text Documents. arXiv:2308.00504
  2. Mieczysl`aw A. Kl`opotek, Sl`awomir T. Wierzchon`, Bartl`omiej Starosta, Dariusz Czerski, Piotr Borkowski: Dependence of Spectrogram from Graph Spectral Clustering in Text Document Domain on Word Distribution Models. [updated version of a former conference paper] Studia Informatica. Systems and Information Technology Vol. 31 No. 2 (2024). pp. 5-14. link DOI: https://doi.org/10.34739/si.2024.31.01, published in 2025.
  3. M.A. Kl`opotek, S.T. Wierzchon`: Selected properties of Grid Graph Laplacians. PP-RAI’2024 PROGRESS IN POLISH ARTIFICIAL INTELLIGENCE RESEARCH 5 Proceedings PP-RAI`2024 -54th Polish Conference on Artificial Intelligence , Warsaw, Poland, 18-20 April 2024. ISBN 978-83-8156-696-4 (print) ISBN 978-83-8156-697-1 (online) DOI: 10.17388/WUT.2024.0002.MiNI
    pp. 37-41
    See alson poster at the conference
  4. Mieczysl`aw A. Kl`opotek: Wide gaps and Kleinberg’s clustering axioms for k-means. International Journal of Applied Mathematics and Computer Science. 2024, Vol. 34, No. 1, 135–147 DOI: 10.61822/amcs-2024-0010 link. Earlier version arXiv
  5. Bartl`omiej Starosta, Mieczysl`aw Kl`opotek and Sl`awomir T. Wierzchon`: Towards Explainability of Hashtags in the Light of Graph Spectral Clustering Methods. STUDIA INFORMATICA. SYSTEMS AND INFORMATION , 2023, Vol. 29 (2), pp.57-68 link. DOI https://doi.org/10.34739/si.2023.29.04
    Presented at 1st Conference on Intelligent Systems and Information Technologies, Siedlce, 28-29.9.2023AD.
  6. B. Starosta, M.A. Kl`opotek, S.T. Wierzchon`, D. Czerski: Hashtag Discernability -- Competitiveness Study of Graph Spectral and Other Clustering Methods. 18th Conference on Computer Science and Intelligence Systems FedCSIS 2023 (IEEE #57573) Warsaw, Poland, 17--20 September, 2023. pages 759--767. https://doi.org/10.15439/2023F2398.
  7. Mieczyslaw A. Klopotek, Robert A. Klopotek: Towards Continuous Consistency Axiom. Applied Intelligence (2022) DOI https://doi.org/10.1007/s10489-022-03710-1 Springer Verlag, Earlier version: CoRR abs/2202.06015 (2022) [i45]
  8. Mieczyslaw A. Klopotek: A Clustering Preserving Transformation for k-Means Algorithm Output. CoRR abs/2202.10455 (2022); abbreviated version in Proc. ISMIS 2022, 03-05.10.2022, Cosenza, Italy. Lecture Notes in Computer Science book series (LNAI,volume 13515) Foundations of Intelligent Systems pp 315 322. Springer link . DOI https://doi.org/10.1007/978-3-031-16564-1_30
  9. M.A. Kl`opotek, S.T. Wierzchon` and R.A. Kl`opotek: "Network Capacity Bound for Personalized PageRank in Multimodal Networks". Fundamenta Informaticae 189(1) : 49-67 (2022). IOS Press https://doi.org/10.3233/FI-222151

Unsere Suchmaschine für polnisches Internet

stopped due to financial problems

Unsere Suchmaschine ist leider Opfer des Kampfes geghen Globale Erwäemung geworden. Die scharf angestiegenen Energiepreise verursachten, daß nur der kommerzielle Teil zur Generierung der Daten für das nationale Plagiat-Bekämpfungsprogramm JSA arbeitet. Der Rest ist seit Jahren abgeschaltet, um Energie zu sparen.

Es ist wirklich schade, denn das System NEKST repäsentierte den technologischen Höchststand zur Zeit seiner Entwicklung. Das Klima scheint aber wichtiger zu sein.

Die Forschungsgruppe entwickelte die massiv-parallele Suchmaschine NEKST, um die polnischen Internetressourcen auf neuartige Weise zu nutzen. Unsere Spezialität ist die Systematisierung von Online-Ressourcen und deren Visualisierung für den Nutzer. Systematisierung verstehen wir als automatische Einteilung von Online-Ressourcen in thematische Gruppen, Hervorhebung thematischer Kanäle auf Webseiten sowie die Kennzeichnung und Kategorisierung von Dokumenten und ihren Gruppen. Für den Nutzer bedeutet dies nicht nur eine präzisere Dokumentenidentifizierung, sondern auch die kontextbezogene Suche nach einzelnen Dokumenten und ihren Gruppen, wie beispielsweise Kanälen oder Diensten, sowie eine Diversifizierung der Suchergebnisse.

Unser im Rahmen des Projekts POIG.01.01.02-14-013/09 entwickeltes System NEKST ist eine innovative technologische Lösung zur großflächigen Suche und semantischen Verarbeitung von Daten aus dem polnischen Internet. In Polen gibt es rund 2,5 Millionen Websites mit über zwei Milliarden Dokumenten (2025AD).

Diese Dokumentenmenge stellt eine Herausforderung für die Datenerfassung, -indizierung und -suche dar, insbesondere da NEKST über die traditionelle Textverarbeitung hinausgeht und diese um semantische Indizierung, Kategorisierung, Klassifizierung, Faktenrecherche, automatische Erstellung von Wissensgraphen aus Online-Dokumenten, Erkennung von Duplikaten und Websites, Suche nach lexikalisch und semantisch ähnlichen Dokumenten, innovative Dokumentenanalysemethoden zur schnellen Identifizierung des Ursprungs einzelner Dokumentfragmente durch Vergleich mit allen Online-Ressourcen sowie die Fähigkeit zur Beantwortung von Anfragen in natürlicher Sprache (polnisch) erweitert. Dies erforderte die Entwicklung origineller innovativer Algorithmen und Methoden.

Das System nutzt nicht nur von Menschen erstellte semantische Ressourcen, sondern ermittelt mithilfe anspruchsvoller Textanalysemethoden und proprietärer Lösungen, welche die aus der Literatur bekannten Ansätze ergänzen. Wir haben auch Algorithmen entwickelt, die auch IS-A-Beziehungen in der eigenen Dokumentendatenbank entdecken und den Wissensgraph erweitern.

Die Entwicklung der Suchmaschine war eng mit der Entwicklung neuer, leistungsstarker Syntaxalgorithmen für die Analyse der polnischen Sprache, Clusteranalysemethoden für Dokumente und Websites, einer proprietären, leistungsstarken Dokumentendatenbank, neuen, schnellen Dokumentenranking-Methoden, welche die praktischen Schwächen des klassischen PageRank beheben, sowie der Entwicklung von technischen Lösungen für Crawler-Systeme, Indizes und mehr, verknüpft.

Die Multiskalenarchitektur, die Abdeckung des gesamten polnischen Internets und die semantische Klassifizierung machen die relevanten Komponenten des NEKST-Systems zu einem wertvollen Werkzeug für die Bereitstellung von Referenzdaten für das nationale Einheitliche Anti-Plagiat-System (JSA). Dieses ist seit 2019 in Polen ein obligatorisches Instrument zur Überprüfung der Originalität aller Diplomarbeiten an den Hochschulen und Dissertationen. Die Erstellung eines Referenzdatensatzes erfordert einerseits die Durchsuchung des gesamten polnischen Internets und andererseits das Herausfiltern irrelevanter Dokumente (z. B. von Geschäften und vielem mehr), welche die Geschwindigkeit des JSA erheblich beeinträchtigen würden.

NEKST-Daten sind entscheidend für die Erkennung von Plagiaten aus polnischen Online-Quellen, insbesondere weil diese einen erheblichen Anteil an Abschlußarbeiten ausmachen. Das System ermöglicht die effektive Suche in polnischen Online-Ressourcen – ein Ziel, das aufgrund der begrenzten Leistungsfähigkeit herkömmlicher Suchmaschinen bisher schwer zu erreichen war. Zwischen dem 1. September 2023 und dem 31. August 2024 untersuchte das JSA-System 319.656 Arbeiten, von denen 62.748 (19,6 %) Ergebnisse aus NEKST-Quellen enthielten. Bei 1,7 % der Arbeiten lag der Anteil übernommener Inhalte bei über 70 %.

Dank JSA mit der NEKST-Komponente ist die Zahl schwerwiegender Plagiatsfälle innerhalb von nur drei Jahren um ein Drittel gesunken. Dies wird zweifellos zu einer allgemeinen Verbesserung des Bildungsniveaus landesweit führen und zukünftig die technologische Entwicklung und das Wirtschaftswachstum beschleunigen.

Zusammenfassend läßt sich sagen, daß die Nutzung des NEKST-Systems folgende Vorteile gebracht hat:

  1. Positiver Einfluß auf das polnische Hochschulsystem: Daten des NEKST-Systems werden vom Einheitlichen Antiplagiat-System (JSA) genutzt, das seit 2019 in Polen zur Überprüfung der Originalität aller Bachelor-, Master- und Doktorarbeiten verpflichtend ist. Zwischen dem 1. September 2023 und dem 31. August 2024 wurden 319.656 Arbeiten im JSA-System geprüft. Davon enthielten 62.748 (19,6 %) Ergebnisse aus NEKST-Quellen, darunter 1,7 % mit einem unzulässigen Maß an Plagiat. Das bedeutet, dass fast jede fünfte Arbeit Plagiate aus polnischen Online-Quellen enthielt und fast jede zwanzigste unzulässige Plagiate aufwies, die mithilfe der NEKST-Daten aufgedeckt wurden.
  2. Positiver Einfluß auf die Bildungsqualität: Das NEKST-System ermöglicht die Erkennung von Plagiaten aus polnischen Internetquellen. Dies ist besonders wichtig, da Plagiate sehr häufig aus polnischen Internetquellen stammen. Vor der Einführung von NEKST war die Überprüfung, ob eine Dissertation Entlehnungen aus polnischen Internetquellen enthält, rechenintensiv und aufgrund der begrenzten Leistungsfähigkeit gängiger Volltextsuchmaschinen schwierig umzusetzen.
  3. Positiver Einfluß auf akademische Standards: Die Nutzung von NEKST-Daten im JSA-System trägt durch effektive Plagiatserkennung zur Aufrechterhaltung hoher akademischer Standards bei, was wiederum die Qualität der Lehre und die Glaubwürdigkeit des polnischen Hochschulsystems stärkt.
  4. Positiver Einfluß auf die Einhaltung gesetzlicher Bestimmungen: Die Nutzung von NEKST-Daten im JSA-System ermöglicht eine bessere Durchsetzung des Hochschulgesetzes und erfüllt dessen Anforderungen im Bereich der Plagiatsbekämpfung.


Unsere Bücher