Dokumente annotierenDiese Anleitung erklärt, wie Sie aus Text-Dateien (auch PDF, MSWord, RTF, etc.) ein Korpus erstellen können.
Voraussetzung:
Vorbemerkung:
Anleitung - via Korpusmenü:
Folgende Dateiformate und Tagger stehen zur Verfügung:
Annotierbare Dateiformate (Basis) APAEK-Unterrichtstranskript (*.pdf)|*.pdf AnnotationPro (*.ant) CLARIN ContentSearch CSV-Export (*.csv) CorpusExplorer Rohdaten (*.sdd) COSMAS-TXT (*.rtf) CSV-Datei mit Überschriften (*.csv) DocPlusXmlCorpus (*.dpxc) Dortmunder Chat Korpus (*.xml) D-Spin Slash/A (*.xml) DTA-Basisformat (*.tcf.xml) EasyHashtag Plaintext (*.ehp) EPUB-eBook (*.epub) EXMERaLDA-Basic (*.exb) FOLKER-Transkript (*.flk) KiDKo/E-Scraper (*.xlsx) LexisNexis-HTML (*.html) Mediawiki/Wikipedia-DUMP (*.xml) Nur Text (*.docx; *.doc) Nur Text (*.html) Nur Text (*.pdf - via iTextSharp (location)) Nur Text (*.pdf - via iTextSharp (simple)) Nur Text (*.pdf) Nur Text (*.rtf) Plain-TXT (*.txt) PostgreSQL-XML-Dump (*.xml)|*.xml TiGER-XML (*.xml) Twitter via yourTwappaKeeper (*.php) Twitter-JSON via StreamAPI (*.json) Twitter-Status-JSON via SearchAPI (*.json)|*.json Universeller Excel-Scraper (*.xlsx) WebLicht-XML (*.xml) WET-Format http://commoncrawl.org (*.warc.wet)|*.warc.wet Annotierbare Dateiformate (mit zusätzlichen Add-ons) Add-on: Apache Tika Auf gut Glück mit Apache Tika (*.*) Add-on: Toxy Auf gut Glück mit Toxy (*.*) Add-on: Pandoc PANDOC [commonmark] (*.txt; *.*) PANDOC [docbook] (*.docbook; *.xml; *.*) PANDOC [Microsoft Word] (*.docx) PANDOC [epub] (*.epub) PANDOC [haddock] (*.txt; *.*) PANDOC [html] (*.html) PANDOC [json] (*.json) PANDOC [LaTeX] (*.tex; *.latex; *.*) PANDOC [markdown] (*.txt; *.*) PANDOC [markdown - github] (*.txt; *.*) PANDOC [markdown - mnd] (*.txt; *.*) PANDOC [markdown - phpextra] (*.txt; *.*) PANDOC [markdown - strict] (*.txt; *.*) PANDOC [wikipedia / mediawiki] (*.txt; *.*) PANDOC [native] (*.txt; *.*) PANDOC [OpenOffice / LibreOffice] (*.odt) PANDOC [opml] (*.opml; *.*) PANDOC [org] (*.txt; *.*) PANDOC [rst] (*.rst; *.*) PANDOC [t2t] (*.t2t; *.*) PANDOC [textile] (*.txt; *.*) PANDOC [twiki] (*.txt; *.*) Verfügbare Tagger Basis-Tagger Keine Annotation - Nur Textimport TreeTagger TreeTagger (ohne Phrasen / höhere Performance) TreeTagger (eigenes Skript) TnT-Tagger UDPipe (eigene/externe Installation) Tagger Add-ons MarMoT OpenNLP (Percepton) OpenNLP (Maxent) Stanford POS UDPipe Verfügbare Backends Verfügbare Backends (Basis) CorpusExplorer v6 CorpusExplorer (EchtzeitEngine) CorpusExplorer v5 Verfügbare Backends (mit zusätzlichen Add-ons) ElasticSearch MySQL SQLite |