To properly display this page you need a browser with JavaScript support.
×
Menü
Index
Suchen
Schnelleinstieg (VIDEO-Kurs)
Den CorpusExplorer installieren und starten
Der CorpusExplorer – Grundlagen
Das EuroParl-Korpus
Annotation des EuroParl-Korpus
Ein (Korpus-)Addon installieren
Wichtige Grundbegriffe
Frequenzanalyse unterschiedlicher Layer
Analyse der Dokument-Metadaten
Schnappschüsse nutzen und weiter verfeinern
N-Gramme als Beispiel für Sprachgebrauchsmuster
Kookurrenzanalyse
Interaktiver moodle/E-Learning Kurs
Nutzerhandbuch
Installation
Programm starten
Programmoberfläche
Hauptmenü
Projektmenü
Korpusmenü
Schnappschussmenü
Analysemenü
Projekte
Neues Projekt erstellen
Projekt laden
Projekt speichern
Projekt (um)benennen
Projekteinstellungen
Projekteinstellungen
Korpora
Korpus laden
Dokumente annotieren
Annotierbare Dateiformate (Basis)
APAEK-Unterrichtstranskript (*.pdf)|*.pdf
AnnotationPro (*.ant)
CLARIN ContentSearch CSV-Export (*.csv)
CorpusExplorer Rohdaten (*.sdd)
COSMAS-TXT (*.rtf)
CSV-Datei mit Überschriften (*.csv)
DocPlusXmlCorpus (*.dpxc)
Dortmunder Chat Korpus (*.xml)
D-Spin Slash/A (*.xml)
DTA-Basisformat (*.tcf.xml)
EasyHashtag Plaintext (*.ehp)
EPUB-eBook (*.epub)
EXMERaLDA-Basic (*.exb)
FOLKER-Transkript (*.flk)
KiDKo/E-Scraper (*.xlsx)
LexisNexis-HTML (*.html)
Mediawiki/Wikipedia-DUMP (*.xml)
Nur Text (*.docx; *.doc)
Nur Text (*.html)
Nur Text (*.pdf - via iTextSharp (location))
Nur Text (*.pdf - via iTextSharp (simple))
Nur Text (*.pdf)
Nur Text (*.rtf)
Plain-TXT (*.txt)
PostgreSQL-XML-Dump (*.xml)|*.xml
TiGER-XML (*.xml)
Twitter via yourTwappaKeeper (*.php)
Twitter-JSON via StreamAPI (*.json)
Twitter-Status-JSON via SearchAPI (*.json)|*.json
Universeller Excel-Scraper (*.xlsx)
WebLicht-XML (*.xml)
WET-Format http://commoncrawl.org (*.warc.wet)|*.warc.wet
Annotierbare Dateiformate (mit zusätzlichen Add-ons)
Add-on: Apache Tika
Auf gut Glück mit Apache Tika (*.*)
Add-on: Toxy
Auf gut Glück mit Toxy (*.*)
Add-on: Pandoc
PANDOC [commonmark] (*.txt; *.*)
PANDOC [docbook] (*.docbook; *.xml; *.*)
PANDOC [Microsoft Word] (*.docx)
PANDOC [epub] (*.epub)
PANDOC [haddock] (*.txt; *.*)
PANDOC [html] (*.html)
PANDOC [json] (*.json)
PANDOC [LaTeX] (*.tex; *.latex; *.*)
PANDOC [markdown] (*.txt; *.*)
PANDOC [markdown - github] (*.txt; *.*)
PANDOC [markdown - mnd] (*.txt; *.*)
PANDOC [markdown - phpextra] (*.txt; *.*)
PANDOC [markdown - strict] (*.txt; *.*)
PANDOC [wikipedia / mediawiki] (*.txt; *.*)
PANDOC [native] (*.txt; *.*)
PANDOC [OpenOffice / LibreOffice] (*.odt)
PANDOC [opml] (*.opml; *.*)
PANDOC [org] (*.txt; *.*)
PANDOC [rst] (*.rst; *.*)
PANDOC [t2t] (*.t2t; *.*)
PANDOC [textile] (*.txt; *.*)
PANDOC [twiki] (*.txt; *.*)
Verfügbare Tagger
Basis-Tagger
Keine Annotation - Nur Textimport
TreeTagger
TreeTagger (ohne Phrasen / höhere Performance)
TreeTagger (eigenes Skript)
TnT-Tagger
UDPipe (eigene/externe Installation)
Tagger Add-ons
MarMoT
OpenNLP (Percepton)
OpenNLP (Maxent)
Stanford POS
UDPipe
Verfügbare Backends
Verfügbare Backends (Basis)
CorpusExplorer v6
CorpusExplorer (EchtzeitEngine)
CorpusExplorer v5
Verfügbare Backends (mit zusätzlichen Add-ons)
ElasticSearch
MySQL
SQLite
Korpus importieren
Verfügbare Korpusformate - Import (Basis)
CLAN Childes (*.cex)
CoNLL (*.conll)
CorpusExplorer v1-v4 [OBSOLETE]
CorpusExplorer (*.cec5)
CorpusExplorer (*.cec6)
CorpusExplorer CEFS (ROOT)
DEWAC
DTAbf Deutsches-Text-Archiv-Basisformat (.tcf.xml)
HYDRA-Korpora (HYDRA)
WebLicht (*.xml)
Verfügbare Korpusformate - Import (mit zusätzlichen Add-ons)
Add-on: Salt&Pepper
Aldt XML 1.0 (*.xml)
Aldt XML 1.5 (*.xml)
CoNLL (*.conll)
CoraXML (*.xml)
EXMARaLDA (*.exs)
Elan (*.xml)
GATE 2.0 (*.xml)
GATE 3.0 (*.xml)
Generic-XML (*.xml)
Graf (*.xml)
MMAX2 (*.mmax2)
Paula (*.xml)
PennTreebank (*.xml)
RST (*.rst)
SaltXml (*.xml; *.salt)
TCF (*.tcf)
TEI-XML (*.xml)
Tiger-XML (*.xml)
Tiger2-XML (*.xml)
Uam (*.xml)
Excel (*.xls) - bis 2007
Excel (*.xlsx) - ab 2007
Toolbox-XML (*.toolbox-xml)
TreeTagger (*.txt)
WebannoTSV (*.tsv)
Wolof (*.wolof)
Add-on: ElasticSearch
Add-on: MySQL
Add-on: SQLite
Online-Korpus akquirieren
WebCrawler erstellen
Tipp: Korpora verteilen
Tipp: Korpora exportieren / konvertieren
Mögliche Korpus-Probleme
Schnappschüsse
Schnappschuss auswählen
Schnappschuss Übersicht
Schnappschuss erstellen/eingrenzen
Autosplit
Zufällig
Individuell
Mit Schnappschüssen arbeiten
Schnappschuss eingrenzen
Schnappschuss bearbeiten
Schnappschuss löschen
Schnappschuss / Korpus exportieren
Verfügbare Korpusformate - Export (Basis)
CorpusExplorer v6 (*.cec6)
Abfragen-Export [Nur für Schnappschüsse] (*.ceusd)
CorpusExplorer v5 (*.cec5)
JSON-Export (*.json)
XML-Export (*.xml)
TLV-XML-Export (*.xml)
Plaintext-Export (*.txt)
Plaintext-Export [Nur Wort-Layer] (*.txt)
CSV-Export [Nur Metadatan] (*.csv)
CSV-Export [Metadaten + Wort-Layer] (*.csv)
CoNLL (*.conll)
Slash/A-XML (*.xml)
DTA Basisformat (*.tcf.xml)
WebLicht (*.xml)
AnnotationPro (*.ant)
Verfügbare Korpusformate - Export (mit zusätzlichen Add-ons)
ElasticSearch
CorpusExplorer <-> ElasticSearch
CorpusExplorer >>> ElasticSearch
CorpusExplorer <-> MySQL
CorpusExplorer <-> SQLite
Salt & Pepper
ANNIS XML
DOT
GraphANNO
MMAX2
Paula
PennTreebank
RelANNIS
SaltInfo
SaltXML
Tcf
Text
TreeTagger
Analysen
Volltextzugriff
Texte annotieren
Texte schnell annotieren
Texte suchen (KWIC)
Texte suchen (KWIT)
Textedition
Textvergleich
Ähnliche Texte
Frequenzanalyse
Tabelle
Pivot-Tabelle
Kreuz-Frequenz
Links-/Rechts-Frequenz
Keyword-Analyse
Verteilung
Zeitliche Verteilung
Vergleichen
Phrasen & Muster
NGram-Tabelle
NGram-Mindmap
Skipgram
Strukturgrammatik
Signifikante N-Gramme
CutOff-Phrasen
Phrasentabelle
Vergleichen
Kookkurrenzen
Abfrage
Tabelle
Als Wolke
Multi-Kookkurrenz
Kontrastieren
Mindmap
Zeitliche Verteilung
Zeitliche Kontrastierung
Vergleichen
Disambiguieren
Tabelle
Cluster-Baum
Profil
Stilmetriken
NGramm-Zeichentabelle
Silben
Komplexität (Lesbarkeit)
Komplexität (Vokabular)
Korpusverteilung
Tabelle
Pivot-Tabelle
Heatmap
Bearbeiten
Zustandsanalyse
Zeitliche Verteilung
Vergleichen
Spezialfunktionen
HTML5-Labor
Grundfunktionalität
Beispiele
Daten als Tabelle darstellen
Simple Donut-Grafik mit HTML5
Erweiterte Skript-Funktionalität
Beispiele
D3.js - Donut
Sentiment-Detection
Sentiment-Detection Einstellungen
Chat-Ansicht
Karte
Karten-Zuordnung
PaperLinguist
PaperLinguist - Ausgabe
TreeTagger-Trainer
Hauptfunktionen häufiger Visualisierungen
Hauptfunktion: Tabelle
Hauptfunktion: Pivottabelle
Hauptfunktion: Tabelle (Schnappschussvergleich)
Weitere Informationen
Fehlerbehebung
Die Installation bricht ständig ab
Es werden keine Texte annotiert / Annotiertes Korpus ist leer / enthält keine Dokumente
Fragen der Nutzer*innen
Wie kann ich zwei oder mehrere Fassungen eines Textes erstellen?
Wie kann ich aus dem Gesamtkorpus einzelne Teilkorpora für die Analyse auswählen?
Types und Tokens für einzelne Probanden ermitteln?
Wie komme ich zur prozentualen Verteilung von POS für einzelne Texte, Teilkorpora und das Gesamtkorpus?
Kann ich für die einzelnen Probanden die Anzahl und Art der Wortarten bestimmen und die Ergebnisse für Teilgruppen darstellen?
Bei der Analyse von N-Grammen z.B. ART NN APPR ART NN – möchte ich die einzelnen Fundstellen ansehen - Wie geht das?
Kann ich nach Phrasen suchen.
N-Gramme: Ich möchte gerne die Frequenz der N-Gramme begrenzen. D.h. nur jene N-Gramme die mindestens 2x im Korpus vorkommen. Ist dies möglich?
Wie speichere ich ...?
Schnappschuss als Korpus exportieren
Korpora einfach sammeln mit dem DPXC-Editor
Die Software-Entwickler-Ecke
Den CorpusExplorer per Konsole steuern / Den CorpusExplorer aus einem anderen Programm oder Skript (z. B. R) steuern
Beispiel: Mit der CorpusExplorerConsole Texte annotieren (bzw. konvertiert)
Beispiel: Einfache Frequenzanalyse
Die Query-Syntax der CEC
Den CorpusExplorer mittels XML-Skript steuern
Ein Korpus als REST-Webservice bereitstellen
Den CorpusExplorer in eigene Programme integrieren - mittels SDK (Software Development Kit)
Übersicht zu Konzepten
Programmkonzept
Datenkonzept - von den Rohdaten zur Visualisierung
Suchen
Suchen
Suchen
Suchen
Die Software-Entwickler-Ecke
Übersicht zu Konzepten
Vorherige Seite
Nächste Seite
Druckversion
To properly display this page you need a browser with JavaScript support.
Übersicht zu Konzepten
Dieses Kapitel fasst Informationen zu Ideen des CorpusExplorers zusammen.
Programmkonzept
Datenkonzept - von den Rohdaten zur Visualisierung
Inhalt von Übersicht zu Konzepten
Programmkonzept
Datenkonzept - von den Rohdaten zur Visualisierung
Tweet
CorpusExplorer & Hilfe - 2015 lizenziert unter der
Creative Commons Namensnennung 4.0 International Lizen
z - J. O. Rüdiger