1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste
| » Tokenizer |
| 24.05.2011, 14:41:30 Dieser Beitrag wurde zuletzt bearbeitet: 24.05.2011 von 14:58:55 salvadora Beitrag #1 | |||
| |||
| Tokenizer Hi, ich beschäftige mich zur Zeit mit Tokenizing und part-pf-speech-tagging. Welche open-soure-Programme werden in der Ausbildung von Computerlinguisten standardweise als gute Softwarebeispiele angegeben und ggf. benutzt? Gruß Salvadora Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 24.05.2011, 15:04:33 Beitrag #2 | |||
| |||
| RE: Tokenizer Also wir hatten Perl gehabt. Es scheint unter Computerlinguisten am Anfang der Ausbildung Standard zu sein. Unter Informatikern ist es nur ein Grinsen wert; die machen sich eher lustig, weil es ein ziemlich ungebräuchliches Programm außerhalb der CompLing ist. Für Dialogsysteme wird oft Python benutzen. Hawaiiereieraueraueeuter [ha.'vaɪ̯.eɐ̯.aɪ̯.eɐ̯.aʊ.eɐ̯.aʊ.ə.ˌɔʏ̯teɐ̯] ist kein Hexadeziphthong. Komm doch mal vorbei und besuche den Verein der gotischen Sprache n. e. V. Uns gibt es auch bei Facebook. Wir würden uns freuen. | |||
| 26.05.2011, 19:55:40 Beitrag #3 | |||
| |||
| RE: Tokenizer Kevin, danke für deine Antwort :-) ja, ich habe gehört, dass CompLinguisten Perl benutzen, wahrscheinlich wegen Verarbeitung von regulären Ausdrücken. Ich würde aber auch gerne wissen, welches open source software man sich anschauen kann, die tokenizing und tagging macht, weil mich vor allem die Algorithmik interessiert, mit denen beide Prozesse verarbeitet werden. Ich schreibe für mich zur Zeit ein kleines Programm in Java und benutze dabei auch reguläre Ausdrücke (java.util.regex), um komplexe Tokens zu isolieren. Ich suche jedoch Programmcode, mit dem ich die (fast) komplette Algorithmik ableiten kann und nicht aus dem Internet mühsam die einzelnen Aspekte zusammentragen muss. Java interessiert mich am meisten, aber für Info zu Perl-Programmen wäre ich auch dankbar. Danke für weitere Hilfe :-) Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 26.05.2011, 20:06:42 Beitrag #4 | |||
| |||
| RE: Tokenizer Hmm, ich glaube allerdings, dass du dich bereits besser auskennst als ich. Im Grunde ist ja mit jedem Programmier-Programm so etwas zu programmieren, nur halt manchmal schwerer manchmal leichter, je nachdem, wie weit man selbst noch programmieren muss. Bei Python zum Beispiel ist bereits dermaßen viel vorprogrammiert, dass man enorm wenige Zeichen braucht; das erste Semester in Perl hatten wir in Python in ein-zwei Stunden nachgeholt.Also mit Perl sind Tokenizing und Tagging eigentlich auch nicht sonderlich unhandlich, auch dafür wird es eigentlich gebraucht. Für sonstige Hilfe gibt es ja auch die Perl-Seite, die einem echt weiterhilft und eigentlich alles wichtige behandelt, auch linguistische Dinge. Du scheinst ja bereits Literatur dazu gelesen zu haben, welche Programme werden denn da für Tokenizer und Tagging benutzt? Hawaiiereieraueraueeuter [ha.'vaɪ̯.eɐ̯.aɪ̯.eɐ̯.aʊ.eɐ̯.aʊ.ə.ˌɔʏ̯teɐ̯] ist kein Hexadeziphthong. Komm doch mal vorbei und besuche den Verein der gotischen Sprache n. e. V. Uns gibt es auch bei Facebook. Wir würden uns freuen. | |||
| 28.05.2011, 15:09:59 Dieser Beitrag wurde zuletzt bearbeitet: 28.05.2011 von 15:21:11 thf Beitrag #5 | |||
| |||
| RE: Tokenizer Hilft das hier vielleicht? http://www-nlp.stanford.edu/links/statnlp.html#Taggers (24.05.2011 15:04:33)Kevin schrieb: [...] weil es ein ziemlich ungebräuchliches Programm außerhalb der CompLing ist.Perl ist schon recht verbreitet, auch unter Informatikern und Artverwandten. Schau zum Beispiel mal hier: http://www.tiobe.com/index.php/content/p...index.html Warum es etwas verschrieen ist, hat denke ich andere Gründe, aber ich glaube, das führt hier zu sehr vom Thema weg. | |||
| 28.05.2011, 19:08:58 Beitrag #6 | |||
| |||
| RE: Tokenizer Danke für die Links:-) Sie sind sehr hilfreich. Dass ich vor allem nach Java-Programmen suche, liegt daran, dass ich Java kenne und perl werde ich erst lernen. Perl ist auch unter Informatikern beliebt ist - da es aber eine Skriptsprache ist, ist sie nicht so mächtig wie Java oder c++ und ist nicht für alles geignet. Viele Grüße Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 10.06.2011, 12:46:30 Beitrag #7 | |||
| |||
| RE: Tokenizer Dieses Buch könnte was für dich sein: http://www.amazon.de/dp/0748614079 Wenn ich mich richtig erinnere, werden darin Tokenizer und Tagger Schritt für Schritt entwickelt. Der Code ist komplett abgedruckt, was für didaktische Zwecke natürlich ideal ist. Es gibt noch ein umfangreicheres (anspruchsvolleres), ebenfalls englischsprachiges Buch mit CD-ROM, das Schritt für Schritt zur Entwicklung immer komplexerer computer-/ korpuslinguistischer Programme führt. Ich kann mich daran erinnern, dass darin ein Tokenizer anhand immer neuer Problemfälle weiterentwickelt wird. Leider konnte ich das Buch auf die Schnelle nicht finden. Pida Hallo, ich bin Pida und seit 03.07.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 11.06.2011, 16:42:34 Beitrag #8 | |||
| |||
| RE: Tokenizer Hallo Pida, vielen Dank für den Tipp zum Buch. Das ist genau, was ich suche :-) Salvadora Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 14.06.2011, 15:57:26 Beitrag #9 | |||
| |||
| RE: Tokenizer Hallo, ich habe den TreeTagger heruntergeladen. Kennt sich jemand mit diesem Tagger oder mit dem dazugehörigen JavaWrapper aus? Ich hätte da ein paar Fragen, z.B: 1. Wie schaffe ich das Output in eine Datei (Textdatei oder noch besser in eine Exceltabelle) zu schreiben? Ich habe bis jetzt das Programm erfolgreich installiert und kann es im Terminal ausführen. Ich würde jedoch gerne das Ergebnis in eine Datei schreiben: entweder in eine Textdatei mit Separatoren oder in eine Exceltabelle, in der jeweils Spalten für Token und für Annotation gibt. Gruß Salvadora Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
| 14.06.2011, 16:57:43 Beitrag #10 | |||
| |||
| RE: Tokenizer Ein Teil meiner vorherigen Frage hat sich erledigt. Ich kann jetzt das Ergebnis in eine Textdatei schreiben Nur, in der Inputdatei darf nur ein Wort pro Zeile geben. Geht das anders? Das finde ich etwas doof, weil wenn man einen längere nText hat, muss man den vor dem Taggen noch zusätzlich aufbereiten. Befehl was ich genutz habe ist das: bin/tree-tagger -token lib/german.par test1.txt output.txt Hallo, ich bin salvadora und seit 09.06.2010 hier angemeldet. Hier könnte meine Signatur stehen | |||
1 Benutzer in diesem Thread: (0 Mitglieder, und 1 Besucher). 1 Gast/Gäste


Tokenizer



Im Grunde ist ja mit jedem Programmier-Programm so etwas zu programmieren, nur halt manchmal schwerer manchmal leichter, je nachdem, wie weit man selbst noch programmieren muss. Bei Python zum Beispiel ist bereits dermaßen viel vorprogrammiert, dass man enorm wenige Zeichen braucht; das erste Semester in Perl hatten wir in Python in ein-zwei Stunden nachgeholt.
Nur, in der Inputdatei darf nur ein Wort pro Zeile geben. Geht das anders? Das finde ich etwas doof, weil wenn man einen längere nText hat, muss man den vor dem Taggen noch zusätzlich aufbereiten.
RSS