Natural Language Processing (NLP)

RAG komplett im Browser: Lokale Dokumente durchsuchen, chatten und Quellen sauber belegen (PDF-Seiten + Zeilen n–m)

Viele „KI-Chats“ wirken beeindruckend – solange sie nur allgemeines Wissen wiedergeben. In der Praxis (Audit, Compliance, Fachabteilungen) zählt aber etwas anderes: Antworten müssen aus konkreten Dokumenten stammen und nachvollziehbar belegt sein. Genau dafür eignet sich RAG (Retrieval-Augmented Generation): Erst werden passende Textstellen aus deinen Unterlagen gefunden, dann wird darauf basierend geantwortet.

In diesem Beitrag zeige ich ein Verfahren, das vollständig im Browser online läuft, aber trotzdem lokale Ordner einliest und einen Such-/Chat-Workflow ermöglicht – inklusive inkrementellem Update und sauberer Quellenreferenz:

PDF: Treffer mit Seitenzahl
Nicht-PDF (TXT/MD/CSV/JSON/XML/HTML/DOCX): Treffer mit Zeilen n–m

Hinweis: Das Beispiel nutzt im Kern ein Retrieval (BM25). Eine echte LLM-Antwortgenerierung kannst du optional später ergänzen (z. B. via API). Der zentrale Mehrwert hier ist der belastbare Retrieval-Layer inkl. Quellen.

Was ist das Verfahren?

1) Datenaufnahme (Ingestion)

Du lädst eine Dummy-Quelle (z. B. Wikipedia-Summary) per Button, um das System sofort zu testen.
Optional wählst du einen lokalen Ordner aus:
- Chromium/Edge: showDirectoryPicker() (HTTPS oder localhost)
- Firefox: Fallback per webkitdirectory

2) Parsing / Extraktion

PDF wird mit PDF.js seitenweise extrahiert, damit Treffer später korrekt als „Seite X“ referenziert werden können.
DOCX wird im Browser via Mammoth.js in Text umgewandelt.
Weitere Textformate werden direkt gelesen (CSV/JSON/XML/HTML werden dabei in ein gut chunkbares Textformat umgeformt).

3) Cleaning (Qualitätssicherung)

Whitespace-Normalisierung, aber Zeilen werden bewusst erhalten, damit wir später Zeilenbereiche als Quellenangabe ausweisen können.
Bei CSV: Erkennung des Trennzeichens und zeilenorientierte Darstellung.
Bei HTML: Entfernen von Skript/Style/Navigation und Extraktion des sichtbaren Textes.

4) Chunking
Dokumente werden in Chunks zerlegt, die „retrieval-freundlich“ sind:

wortsaubere Chunk-Grenzen (kein Start mitten im Wort)
Overlap (Überlappung) für Kontextstabilität
Zu jedem Chunk werden Metadaten berechnet:
- PDF: page
- Nicht-PDF: line_from / line_to (Zeilen n–m)

5) Index / Retrieval
Im Worker läuft ein BM25-Index:

Tokenisierung + Stopword-Filter (DE/EN)
BM25-Scoring
Ergebnisliste (Top-K) inkl. Kontext-Snippet um den Treffer herum (nicht einfach Chunk-Start)

6) Inkrementelles Update
Beim erneuten Ordner-Scan werden Dateien über Signatur erkannt (Pfad + Größe + lastModified):

unveränderte Dateien werden nicht neu verarbeitet
geänderte Dateien: alte Chunks werden gelöscht, neue erzeugt
gelöschte Dateien: Chunks werden entfernt

7) Persistenz (Cache)
Alle Chunks + Dateisignaturen werden in IndexedDB gespeichert:

Browser schließen/öffnen → Cache laden → sofort wieder suchbar
Kein Server-State nötig

Warum „Seite“ und „Zeilen n–m“ so wichtig sind

Für professionelle Nutzung ist es nicht genug, „irgendwo stand das“ zu sagen. Du willst:

schnell zur Stelle springen
bei Reviews/Audits die Quelle belegen
Ergebnisse reproduzierbar machen

Darum ist die Quelle in unserem Tool nicht nur „Dokumentname“, sondern:

PDF Seite X
Text Zeilen n–m

Das ist die Brücke zwischen KI-UX und klassischer Nachvollziehbarkeit.

Grenzen und sinnvolle Datenvolumen-Limits

Damit das Ganze flüssig im Browser bleibt, gelten pragmatische Limits:

max. 2 MB pro Datei (konfigurierbar)
max. ~5 Mio Zeichen pro Scan (konfigurierbar)

Als Faustregel: Für interaktive Nutzung (ohne Warteorgien) ist ein Ordnerumfang im Bereich einige 10–200 Text/PDF-Seiten gut beherrschbar – abhängig von Gerät/Browser. Wenn du deutlich mehr brauchst:

aggressiver chunking/cleaning
Vorfilter (nur relevante Unterordner)
optional: „Index-Build“ in Batches, oder Worker-Sharding

Typische Use Cases

interne Richtlinien, Arbeitsanweisungen, Prozessdokumente
Audit-/Prüfungsakten (PDF)
Log- und Exportdateien (CSV/JSON)
Projektdokumentation (MD/TXT)
Word-Dokumente als DOCX

Fazit

Mit diesem Ansatz bekommst du eine nachvollziehbare RAG-Basis im Browser:

lokale Dokumente einlesen
inkrementell aktualisieren
schnell durchsuchen
Treffer mit Seiten und Zeilen belegen

Hier kommst du zum Online-Demo des RAG-Systems!

Wenn du darauf aufbauen willst, ist der nächste Schritt die Antwortgenerierung über ein LLM (API oder eigenes Modell) – aber der kritische Teil für Professionalität ist oft genau das, was hier schon steht: guter Index + gute Quellen.

taxpilot.ai - Taxpilot, Drive to simplicity - dein Steuer-Chatbot

Taxpilot, Drive to simplicity

At TaxPilot, we navigate the complexities of tax solutions to bring you clarity and ease. Our commitment is to deliver precise and reliable tax solutions, streamlining your tax journey with innovation and expertise.

lmstudio.ai - Entdecke lmstudio.ai: Kreative Textgenerierung auf einem neuen Level

"Entdecke lmstudio.ai: Kreative Textgenerierung auf einem neuen Level"

In der Welt der künstlichen Intelligenz und des maschinellen Lernens gibt es immer wieder aufregende Fortschritte, die unser tägliches Leben und unsere Arbeitsweise beeinflussen. Ein solcher Fortschritt ist lmstudio.ai, eine bahnbrechende Plattform für kreative Textgenerierung.

Lmstudio.ai basiert auf OpenAI's fortschrittlicher GPT-3.5-Technologie und bietet eine breite Palette von Anwendungsmöglichkeiten, die von kreativen Schreibprojekten bis hin zur Automatisierung von Textinhalten für Unternehmen reichen. Hier sind einige der faszinierenden Funktionen, die lmstudio.ai bietet:

Kreative Texte: Egal, ob du an einem Roman arbeitest, Gedichte verfassen möchtest oder einfach nur kreative Schreibübungen machst, lmstudio.ai kann dir helfen, inspirierende Texte zu generieren. Du kannst dem Modell ein Thema oder eine Stimmung vorgeben und es wird dir dabei helfen, einzigartige und ansprechende Texte zu erstellen.
Content-Automatisierung: Unternehmen, die regelmäßig Inhalte für Blogs, soziale Medien oder Produktbeschreibungen benötigen, werden lmstudio.ai zu schätzen wissen. Die Plattform kann automatisch qualitativ hochwertige Texte generieren, was den Arbeitsaufwand erheblich reduziert und die Produktivität steigert.
Sprachübersetzungen: Lmstudio.ai beherrscht nicht nur die Textgenerierung in verschiedenen Sprachen, sondern kann auch Übersetzungen zwischen diesen Sprachen durchführen. Das ist besonders nützlich für Unternehmen, die in globalen Märkten tätig sind.
Chatbots und Kundensupport: Die Plattform kann verwendet werden, um intelligente Chatbots zu erstellen, die Kundensupport-Anfragen automatisch bearbeiten können. Das spart Zeit und Ressourcen und ermöglicht es Unternehmen, ihren Kunden einen besseren Service anzubieten.
Wissensmanagement: Lmstudio.ai kann verwendet werden, um Wissensdatenbanken für Unternehmen zu erstellen und zu pflegen. Dies erleichtert die Suche nach Informationen und stellt sicher, dass Mitarbeiter und Kunden stets auf aktuelle und relevante Informationen zugreifen können.
E-Learning und Schulung: Lehrer und Ausbilder können lmstudio.ai nutzen, um Lehrmaterialien und Schulungsinhalte zu erstellen. Dies erleichtert die Erstellung von ansprechenden Lernressourcen und ermöglicht es Bildungseinrichtungen, effektiver zu lehren.

Lmstudio.ai bietet eine benutzerfreundliche Schnittstelle, die es sowohl erfahrenen Entwicklern als auch Anfängern leicht macht, die Plattform zu nutzen. Darüber hinaus kann die Qualität der generierten Texte durch einfaches Feedback und Feinabstimmung stetig verbessert werden.

Sieh selbst unter https://lmstudio.ai/

KI-Chatbot für betriebswirtschaftliche Begriffe in der steuerlichen Außenprüfung

Die Digitalisierung hat die Art und Weise, wie wir arbeiten und kommunizieren, revolutioniert. Ein besonders spannendes Beispiel dafür ist der Einsatz von KI-Chatbots in der steuerlichen Außenprüfung. Diese Chatbots sind darauf programmiert, steuerliche Begriffe in der Betriebsprüfung zu erklären und zu erläutern.

Ein solcher Chatbot, den ich kürzlich erstellt, befindet sich auf der Website von www.steuern-links.de. Dieser Chatbot bietet eine interaktive Plattform, auf der Benutzer Fragen zu verschiedenen steuerlichen Begriffen stellen können. Zum Beispiel: "Was ist die Summarische Risikoprüfung? Und wer hat sie erfunden?" Der Chatbot antwortet prompt und liefert präzise Informationen.

Drei Denkanstöße zum Thema:

Wie können KI-Chatbots die Effizienz der steuerlichen Außenprüfung verbessern und gleichzeitig die Kommunikation zwischen Steuerprüfern und Steuerpflichtigen erleichtern?
Welche anderen Anwendungen könnten in Zukunft von solchen spezialisierten Chatbots profitieren?
Wie können wir sicherstellen, dass die von Chatbots bereitgestellten Informationen korrekt und aktuell sind?

Erkunden Sie den KI-Chatbot hier und entdecken Sie die Möglichkeiten, wie KI die steuerliche Außenprüfung revolutionieren kann.

Steuern-Links.de KI-Chatbot

Weitere Beiträge …

Seite 1 von 2