Metahilfe: Was wir hier (nicht) tun - Informationen zum Thema Fragen und Hilfen im Forum.

Du kennst dich aus? — Prima. Unser Fragenbeantwortungs-Team freut sich immer über engagierte Verstärkung!



1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
Antwort schreiben 
 » Erledigt: Heute Heute Tokenizer

24.05.2011, 14:41:30
Beitrag #1
Tokenizer
Hi,

ich beschäftige mich zur Zeit mit Tokenizing und part-pf-speech-tagging.
Welche open-soure-Programme werden in der Ausbildung von Computerlinguisten standardweise als gute Softwarebeispiele angegeben und ggf. benutzt?

Gruß
Salvadora


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
24.05.2011, 15:04:33
Beitrag #2
RE: Tokenizer
Also wir hatten Perl gehabt. Es scheint unter Computerlinguisten am Anfang der Ausbildung Standard zu sein. Unter Informatikern ist es nur ein Grinsen wert; die machen sich eher lustig, weil es ein ziemlich ungebräuchliches Programm außerhalb der CompLing ist.
Für Dialogsysteme wird oft Python benutzen.


"So the whole reason the French people can't really dance
Is because they haven't got the beat in their blood.
And why don't they live and breathe the beat?
Because their language has no tonic accent."
Martin Solveig ~ Heart of Africa
Webseite des Benutzers besuchenAlle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
26.05.2011, 19:55:40
Beitrag #3
RE: Tokenizer
Kevin, danke für deine Antwort :-)

ja, ich habe gehört, dass CompLinguisten Perl benutzen, wahrscheinlich wegen Verarbeitung von regulären Ausdrücken.

Ich würde aber auch gerne wissen, welches open source software man sich anschauen kann, die tokenizing und tagging macht, weil mich vor allem die Algorithmik interessiert, mit denen beide Prozesse verarbeitet werden. Ich schreibe für mich zur Zeit ein kleines Programm in Java und benutze dabei auch reguläre Ausdrücke (java.util.regex), um komplexe Tokens zu isolieren. Ich suche jedoch Programmcode, mit dem ich die (fast) komplette Algorithmik ableiten kann und nicht aus dem Internet mühsam die einzelnen Aspekte zusammentragen muss. Java interessiert mich am meisten, aber für Info zu Perl-Programmen wäre ich auch dankbar.

Danke für weitere Hilfe :-)


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
26.05.2011, 20:06:42
Beitrag #4
RE: Tokenizer
Hmm, ich glaube allerdings, dass du dich bereits besser auskennst als ich. Zwinker Im Grunde ist ja mit jedem Programmier-Programm so etwas zu programmieren, nur halt manchmal schwerer manchmal leichter, je nachdem, wie weit man selbst noch programmieren muss. Bei Python zum Beispiel ist bereits dermaßen viel vorprogrammiert, dass man enorm wenige Zeichen braucht; das erste Semester in Perl hatten wir in Python in ein-zwei Stunden nachgeholt.
Also mit Perl sind Tokenizing und Tagging eigentlich auch nicht sonderlich unhandlich, auch dafür wird es eigentlich gebraucht. Für sonstige Hilfe gibt es ja auch die Perl-Seite, die einem echt weiterhilft und eigentlich alles wichtige behandelt, auch linguistische Dinge.
Du scheinst ja bereits Literatur dazu gelesen zu haben, welche Programme werden denn da für Tokenizer und Tagging benutzt?


"So the whole reason the French people can't really dance
Is because they haven't got the beat in their blood.
And why don't they live and breathe the beat?
Because their language has no tonic accent."
Martin Solveig ~ Heart of Africa
Webseite des Benutzers besuchenAlle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
28.05.2011, 15:09:59
Beitrag #5
RE: Tokenizer
Hilft das hier vielleicht?
http://www-nlp.stanford.edu/links/statnlp.html#Taggers

(24.05.2011 15:04:33)Kevin schrieb:  [...] weil es ein ziemlich ungebräuchliches Programm außerhalb der CompLing ist.
Perl ist schon recht verbreitet, auch unter Informatikern und Artverwandten. Schau zum Beispiel mal hier: http://www.tiobe.com/index.php/content/p...index.html

Warum es etwas verschrieen ist, hat denke ich andere Gründe, aber ich glaube, das führt hier zu sehr vom Thema weg. Zwinker

Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
28.05.2011, 19:08:58
Beitrag #6
RE: Tokenizer
Danke für die Links:-) Sie sind sehr hilfreich.

Dass ich vor allem nach Java-Programmen suche, liegt daran, dass ich Java kenne und perl werde ich erst lernen. Perl ist auch unter Informatikern beliebt ist - da es aber eine Skriptsprache ist, ist sie nicht so mächtig wie Java oder c++ und ist nicht für alles geignet.

Viele Grüße


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
10.06.2011, 12:46:30
Beitrag #7
RE: Tokenizer
Dieses Buch könnte was für dich sein:
http://www.amazon.de/dp/0748614079

Wenn ich mich richtig erinnere, werden darin Tokenizer und Tagger Schritt für Schritt entwickelt. Der Code ist komplett abgedruckt, was für didaktische Zwecke natürlich ideal ist.

Es gibt noch ein umfangreicheres (anspruchsvolleres), ebenfalls englischsprachiges Buch mit CD-ROM, das Schritt für Schritt zur Entwicklung immer komplexerer computer-/ korpuslinguistischer Programme führt. Ich kann mich daran erinnern, dass darin ein Tokenizer anhand immer neuer Problemfälle weiterentwickelt wird. Leider konnte ich das Buch auf die Schnelle nicht finden.

Pida


Hallo, ich bin Pida und seit 03.07.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
11.06.2011, 16:42:34
Beitrag #8
RE: Tokenizer
Hallo Pida,

vielen Dank für den Tipp zum Buch. Das ist genau, was ich suche :-)

Salvadora


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
14.06.2011, 15:57:26
Beitrag #9
RE: Tokenizer
Hallo,

ich habe den TreeTagger heruntergeladen. Kennt sich jemand mit diesem Tagger oder mit dem dazugehörigen JavaWrapper aus?

Ich hätte da ein paar Fragen, z.B:
1. Wie schaffe ich das Output in eine Datei (Textdatei oder noch besser in eine Exceltabelle) zu schreiben?

Ich habe bis jetzt das Programm erfolgreich installiert und kann es im Terminal ausführen. Ich würde jedoch gerne das Ergebnis in eine Datei schreiben: entweder in eine Textdatei mit Separatoren oder in eine Exceltabelle, in der jeweils Spalten für Token und für Annotation gibt.

Gruß
Salvadora


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
14.06.2011, 16:57:43
Beitrag #10
RE: Tokenizer
Ein Teil meiner vorherigen Frage hat sich erledigt.
Ich kann jetzt das Ergebnis in eine Textdatei schreiben Lächel Nur, in der Inputdatei darf nur ein Wort pro Zeile geben. Geht das anders? Das finde ich etwas doof, weil wenn man einen längere nText hat, muss man den vor dem Taggen noch zusätzlich aufbereiten.

Befehl was ich genutz habe ist das:
bin/tree-tagger -token lib/german.par test1.txt output.txt


Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet.
Hier könnte meine Signatur stehen
Alle Beiträge dieses Benutzers finden
Diese Nachricht in einer Antwort zitierenReturn to top
Antwort schreiben 


Gehe zu:


1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste