Related
This is my current code, I have the message_list (the input) and the book (3686 lines) and need to check if the book contains the message. But the message has gaps, "_", and a gap equals a word. But I don't know how to parse this into my re arguments. I have never worked with re before and that was my try on this.
message_list = ["das", "_", "mir", "_", "_", "_", "vor"]
book = readfile("Book.txt", False)
print(re.search(rf"\^{message_list[0]}\.\${message_list[len(message_list)-1]}", str(book)))
Book (Alice in Wonderland in German):
So fingen sie denn an, feierlich im Kreise um Alice zu tanzen; zuweilen
traten sie ihr auf die Füße, wenn sie ihr zu nahe kamen; die falsche
Schildkröte sang dazu, sehr langsam und traurig, Folgendes: --
Zu der Schnecke sprach ein Weißfisch: »Kannst du denn nicht
schneller gehn?
Siehst du denn nicht die Schildkröten und die Hummer
alle stehn?
Hinter uns da kommt ein Meerschwein, und es tritt mir auf
den Schwanz;
Und sie warten an dem Strande, daß wir kommen zu
dem Tanz.
Willst du denn nicht, willst du denn nicht, willst du kommen
zu dem Tanz?
Willst du denn nicht, willst du denn nicht, willst du kommen
zu dem Tanz?«
»Nein, du kannst es nicht ermessen, wie so herrlich es wird sein,
Nehmen sie uns mit den Hummern, werfen uns in's Meer hinein!«
Doch die Schnecke thät nicht trauen. »Das gefällt mir doch nicht ganz!
Viel zu weit, zu weit! ich danke -- gehe nicht mit euch zum Tanz!
Nein, ich kann, ich mag, ich will nicht, kann nicht kommen zu dem Tanz!
Nein, ich kann, ich mag, ich will nicht, mag nicht kommen zu dem Tanz!«
Und der Weißfisch sprach dagegen: »'s kommt ja nicht drauf an, wie
weit!
Ist doch wohl ein andres Ufer, drüben auf der andern Seit'!
Und noch viele schöne Küsten giebt es außer Engelland's;
Nur nicht blöde, liebe Schnecke, komm' geschwind mit mir zum Tanz!
Willst du denn nicht, willst du denn nicht, willst du kommen zu dem
Tanz?
Willst du denn nicht, willst du denn nicht, willst nicht kommen zu dem
Tanz?«
Excpected Output:
["das","_","mir","_","_","_","vor"]
Line 127 : ...
Line 256 : ...
and so on.
If the underscores can represent one word, then you can change them from underscores into a "single word match", which you can then make optional or multiple as required, in constructing a regular expression to match against the text. You just have to be careful about spaces, since there's normally a single space between words but the pattern also captures spaces, so * can be useful, as below:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
book = """icht, kann nicht kommen zu dem Tanz!
Nehmen sie uns mit den Hummern, werfen uns in's Meer hinein!«
Doch die Schnecke thät nicht trauen. »Das gefällt mir doch nicht ganz!
Viel zu weit, zu weit! ich danke -- gehe nicht mit euch zum Tanz!
foo das foo mir bar one two vor foo
Nein, ich kann, ich mag, ich will nicht, kann nicht kommen
Nein, ich kann, ich mag, ich will nicht, mag nicht kommen zu dem Tanz!«~"""
def word_capture_or_literal(w): # _ matches a single word
return '(?:\s+\S+)' if w == "_" else " *" + w
message_list = ["das","_","mir","_","_","_","vor"]
pattern = "".join(map(word_capture_or_literal, message_list))
result = re.search(pattern, book)
print(result)
Result, finding the words ok:
% python foo.py
<_sre.SRE_Match object at 0x10cd73b28>
I have some large German text files (that I can split into smaller text files, so that's not a problem) from which I want to extract the words and later count how many times a each word appears (the latter is also not a problem).
The texts are pretty messy:
'''Alan Smithee''' steht als [[Pseudonym]] für einen fiktiven Regisseur, der Filme verantwortet, bei denen der eigentliche [[Regisseur]] seinen Namen nicht mit dem Werk in Verbindung gebracht haben möchte. Von 1968 bis 2000 wurde es von der [[Directors Guild of America]] (DGA) für solche Situationen empfohlen, seither ist es '''Thomas Lee'''.<ref>[[Los Angeles Times|latimes]].com: [http://articles.latimes.com/2000/jan/15/entertainment/ca-54271 ''Name of Director Smithee Isn't What It Used to Be''], zuletzt geprüft am 2. April 2011.</ref> ''Alan Smithee'' ist jedoch weiterhin in Gebrauch.
Alternative Schreibweisen sind unter anderem die Ursprungsvariante ''Al'''len''' Smithee'' sowie ''Alan Sm'''y'''thee'' und ''A'''dam''' Smithee''. Auch zwei teilweise asiatisch anmutende Schreibweisen ''Alan Smi Thee'' und ''Sumishii Aran'' gehören – so die [[Internet Movie Database]] – dazu.<ref name="IMDb">[http://www.imdb.com/name/nm0000647/ Eigener Eintrag für ''Alan Smithee'' in der IMDb]</ref>
== Geschichte ==
=== Entstehung ===
Das Pseudonym entstand 1968 infolge der Arbeiten am Western-Film ''Death of a Gunfighter'' (deutscher Titel ''[[Frank Patch – Deine Stunden sind gezählt]]''). Regisseur [[Robert Totten]] und Hauptdarsteller [[Richard Widmark]] gerieten in einen Streit, woraufhin [[Don Siegel]] als neuer Regisseur eingesetzt wurde.
Der Film trug nach Abschluss der Arbeiten noch deutlich Tottens [[Manier (Stil)|Handschrift]], der auch mehr Drehtage als Siegel daran gearbeitet hatte, weshalb dieser die Nennung seines Namens als Regisseur ablehnte. Totten selbst lehnte aber ebenfalls ab. Als Lösung wurde ''Allen Smithee'' als ein möglichst einzigartiger Name gewählt.<ref>[http://www.imdb.com/name/nm0000647/bio ''Biography for Alan Smithee''] in der Internet Movie Database</ref>
In den zeitgenössischen Kritiken wurde der Regisseur u. a. von [[Roger Ebert]] mit den Worten gelobt:
{{Zitat
|Text=Director Allen Smithee, a name I’m not familiar with, allows his story to unfold naturally. He never preaches, and he never lingers on the obvious. His characters do what they have to do.<ref>rogerebert.[[Chicago Sun-Times|suntimes]].com: [https://www.rogerebert.com/reviews/death-of-a-gunfighter-1969 ''Death of a Gunfighter''], zuletzt geprüft am 2. April 2011</ref>
|Sprache=en
|Übersetzung=Regisseur Alan Smithee, ein Name, der mir nicht vertraut ist, erlaubt es seiner Handlung, sich natürlich zu entfalten. Er predigt niemals, und er verweilt nie beim Offensichtlichen. Seine Charaktere tun, was sie tun müssen.}}
=== Aufdeckung und Abkehr ===
1997 kam die Parodie ''An Alan Smithee Film: Burn Hollywood Burn'' (deutscher Titel ''[[Fahr zur Hölle Hollywood]]'') in die Kinos, was das Pseudonym einem größeren Publikum bekannt machte, nicht zuletzt weil [[Arthur Hiller (Regisseur)|Arthur Hiller]], der eigentliche Regisseur des Films, selbst seinen Namen zurückzog und analog zum Filmtitel das Pseudonym ''Alan Smithee'' benutzte. Der Film gilt als einer der schlechtesten Filme der 1990er Jahre und gewann fünf [[Goldene Himbeere]]n.
Der Film ''[[Supernova (2000)|Supernova]]'' ist der erste Post-Smithee-Film, dort führte ein gewisser ''Thomas Lee'' alias [[Walter Hill]] die Regie.
<!-- fand nur einen für den von 1990, siehe ''[[Das Kindermädchen]]'':
„Smithee wurde allerdings auch nach ''Supernova'' gesichtet, in einem Film namens ''The Guardian''.“
-->
== Verwendung ==
Die Verwendung dieses oder eines anderen Pseudonyms ist für Mitglieder der DGA streng reglementiert. Ein Regisseur, der für einen von ihm gedrehten Film seinen Namen nicht hergeben möchte, hat nach Sichtung des fertigen Films drei Tage Zeit, anzuzeigen, dass er ein Pseudonym verwenden möchte. Der Rat der DGA entscheidet binnen zwei Tagen über das Anliegen. Erhebt die Produktionsfirma Einspruch, entscheidet ein Komitee aus Mitgliedern der DGA und der Vereinigung der Film- und Fernsehproduzenten, ob der Regisseur ein Pseudonym angeben darf. Über die Beantragung muss der Regisseur Stillschweigen halten, ebenso darf er den fertigen Film nicht öffentlich kritisieren, wenn die DGA ihm die Verwendung eines Pseudonyms zugesteht.<ref>Siehe zu diesen Regelungen [http://www.dga.org/~/media/Files/Contracts/Agreements/2008%20BA/008ba2008article8.pdf Artikel 8, Abschnitt 8-211 des ''Basic Agreement''] (PDF; 125 kB) der DGA von 2008, abgerufen am 25. April 2012.</ref> Ein Antrag des Regisseurs auf Pseudonymisierung kann abgelehnt werden, so durfte [[Tony Kaye (Regisseur)|Tony Kaye]] den Namen Smithee bei dem Film ''[[American History X]]'' nicht einsetzen, obwohl er den Antrag stellte.
Auch bei nicht-US-amerikanischen Produktionen wird der Name verwendet, wie etwa beim [[Pilotfilm]] der Fernsehserie ''[[Schulmädchen (Fernsehserie)|Schulmädchen]]''. 2007 sendete die ARD am 8. und 9. August den zweiteiligen TV-Film ''Paparazzo''. Auch in diesem Werk erscheint anstatt des eigentlichen Regisseurs [[Stephan Wagner (Regisseur)|Stephan Wagner]] Alan Smithee im Abspann.
Regisseure, die das Pseudonym benutzt haben:
* [[Don Siegel]] und [[Robert Totten]] (für ''[[Frank Patch – Deine Stunden sind gezählt]]'')
* [[David Lynch]] (für die dreistündige Fernsehfassung von ''[[Der Wüstenplanet (Film)|Der Wüstenplanet]]'')
* [[Chris Christensen]] (''The Omega Imperative'')
* [[Gianni Bozzacchi]] (für ''I Love N.Y.'')
* [[Stuart Rosenberg]] (für ''Let’s Get Harry'')
* [[Richard C. Sarafian]] (für ''[[Starfire]]'')
* [[Dennis Hopper]] (für ''[[Catchfire]]'')
* [[Arthur Hiller (Regisseur)|Arthur Hiller]] (für ''[[Fahr zur Hölle Hollywood]]'')
* [[Rick Rosenthal]] (''Die Vögel II – Die Rückkehr'')
* [[Kevin Yagher]] (''[[Hellraiser IV – Bloodline]]'')
* [[William Lustig]] (''[[Maniac Cop 3]]'')
I wrote the following code:
import re
with open('C:\\path\\text.txt', encoding="unicode_escape") as f, open('word_list.txt', 'a', encoding="utf-8") as f1:
f1.write('\n'.join(set(re.findall("[a-zA-Z_äöüÄÖÜß]+", f.read()))))
A text editor says I have 741 words, but the output only has approximately 460 words. The output looks like this (this is just a snippet) and it also contains single letters or groups of letters that don't make sense:
Hill
Himbeere
An
never
gepr
Frank
X
Eigener
Thee
Auch
anstatt
com
mehr
fiktiven
Should I use something else? Should I alter anything in my code? Is there a better way to filter such a messy text?
It looks like your code is working correctly. Note that a set only keeps unique element, so that might be the reason for your lower wordcount.
In texts like these you will find many proper names and metadata words. In this one there is even a section where names are separated into syllables, which gives you some nonsensical results.
Depending on what you plan on doing with the data, it might be worth considering to get a dictionary of german words and discard any results that don't appear in the dictionary. There are some nice word lists in this answer from the german stackexchange.
If you only want to work with wikipedia articles, you can use the wikipedia module. It imports the articles without the markdown information that is making you problems at the moment.
import wikipedia
page = wikipedia.page('Stack Overflow')
raw_text = page.content
Furthermore I would recommend you the Stutgart Tübingen Tagset which is used in the spacy module for instance.
I downloaded the Wikipedia data in smaller chunks from here. I unzipped the files and now I want to extract the text from them (the largest are over 3 GB). I have a code that works, but it crashes when the file is too large:
doc = untangle.parse('C:\\path\\dewiki-20210820-pages-articles-multistream1.xml-p1p297012')
for page in doc.mediawiki.page:
print(page.title.cdata)
for text in page.revision.text:
print(text.cdata, file=open("wiki1.txt", "a"))
From what I understand I could either use some paid software to split the .xml's in smaller chunks, or do it manually in a text editor, but I can't even open them in text editors. Are there any other options?
Input example:
<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.10/ http://www.mediawiki.org/xml/export-0.10.xsd" version="0.10" xml:lang="de">
<siteinfo>
<sitename>Wikipedia</sitename>
<dbname>dewiki</dbname>
<base>https://de.wikipedia.org/wiki/Wikipedia:Hauptseite</base>
<generator>MediaWiki 1.37.0-wmf.19</generator>
<case>first-letter</case>
<namespaces>
<namespace key="-2" case="first-letter">Medium</namespace>
<namespace key="-1" case="first-letter">Spezial</namespace>
<namespace key="0" case="first-letter" />
<namespace key="1" case="first-letter">Diskussion</namespace>
<namespace key="2" case="first-letter">Benutzer</namespace>
<namespace key="3" case="first-letter">Benutzer Diskussion</namespace>
<namespace key="4" case="first-letter">Wikipedia</namespace>
<namespace key="5" case="first-letter">Wikipedia Diskussion</namespace>
<namespace key="6" case="first-letter">Datei</namespace>
<namespace key="7" case="first-letter">Datei Diskussion</namespace>
<namespace key="8" case="first-letter">MediaWiki</namespace>
<namespace key="9" case="first-letter">MediaWiki Diskussion</namespace>
<namespace key="10" case="first-letter">Vorlage</namespace>
<namespace key="11" case="first-letter">Vorlage Diskussion</namespace>
<namespace key="12" case="first-letter">Hilfe</namespace>
<namespace key="13" case="first-letter">Hilfe Diskussion</namespace>
<namespace key="14" case="first-letter">Kategorie</namespace>
<namespace key="15" case="first-letter">Kategorie Diskussion</namespace>
<namespace key="100" case="first-letter">Portal</namespace>
<namespace key="101" case="first-letter">Portal Diskussion</namespace>
<namespace key="828" case="first-letter">Modul</namespace>
<namespace key="829" case="first-letter">Modul Diskussion</namespace>
<namespace key="2300" case="first-letter">Gadget</namespace>
<namespace key="2301" case="first-letter">Gadget Diskussion</namespace>
<namespace key="2302" case="case-sensitive">Gadget-Definition</namespace>
<namespace key="2303" case="case-sensitive">Gadget-Definition Diskussion</namespace>
</namespaces>
</siteinfo>
<page>
<title>Alan Smithee</title>
<ns>0</ns>
<id>1</id>
<revision>
<id>206555397</id>
<parentid>203805452</parentid>
<timestamp>2020-12-14T23:55:02Z</timestamp>
<contributor>
<username>Phzh</username>
<id>1029574</id>
</contributor>
<minor />
<comment>Form, typo</comment>
<model>wikitext</model>
<format>text/x-wiki</format>
<text bytes="7675" xml:space="preserve">'''Alan Smithee''' steht als [[Pseudonym]] für einen fiktiven Regisseur, der Filme verantwortet, bei denen der eigentliche [[Regisseur]] seinen Namen nicht mit dem Werk in Verbindung gebracht haben möchte. Von 1968 bis 2000 wurde es von der [[Directors Guild of America]] (DGA) für solche Situationen empfohlen, seither ist es '''Thomas Lee'''.<ref>[[Los Angeles Times|latimes]].com: [http://articles.latimes.com/2000/jan/15/entertainment/ca-54271 ''Name of Director Smithee Isn't What It Used to Be''], zuletzt geprüft am 2. April 2011.</ref> ''Alan Smithee'' ist jedoch weiterhin in Gebrauch.
Alternative Schreibweisen sind unter anderem die Ursprungsvariante ''Al'''len''' Smithee'' sowie ''Alan Sm'''y'''thee'' und ''A'''dam''' Smithee''. Auch zwei teilweise asiatisch anmutende Schreibweisen ''Alan Smi Thee'' und ''Sumishii Aran'' gehören – so die [[Internet Movie Database]] – dazu.<ref name="IMDb">[http://www.imdb.com/name/nm0000647/ Eigener Eintrag für ''Alan Smithee'' in der IMDb]</ref>
== Geschichte ==
=== Entstehung ===
Das Pseudonym entstand 1968 infolge der Arbeiten am Western-Film ''Death of a Gunfighter'' (deutscher Titel ''[[Frank Patch – Deine Stunden sind gezählt]]''). Regisseur [[Robert Totten]] und Hauptdarsteller [[Richard Widmark]] gerieten in einen Streit, woraufhin [[Don Siegel]] als neuer Regisseur eingesetzt wurde.
Der Film trug nach Abschluss der Arbeiten noch deutlich Tottens [[Manier (Stil)|Handschrift]], der auch mehr Drehtage als Siegel daran gearbeitet hatte, weshalb dieser die Nennung seines Namens als Regisseur ablehnte. Totten selbst lehnte aber ebenfalls ab. Als Lösung wurde ''Allen Smithee'' als ein möglichst einzigartiger Name gewählt.<ref>[http://www.imdb.com/name/nm0000647/bio ''Biography for Alan Smithee''] in der Internet Movie Database</ref>
In den zeitgenössischen Kritiken wurde der Regisseur u. a. von [[Roger Ebert]] mit den Worten gelobt:
{{Zitat
|Text=Director Allen Smithee, a name I’m not familiar with, allows his story to unfold naturally. He never preaches, and he never lingers on the obvious. His characters do what they have to do.<ref>rogerebert.[[Chicago Sun-Times|suntimes]].com: [https://www.rogerebert.com/reviews/death-of-a-gunfighter-1969 ''Death of a Gunfighter''], zuletzt geprüft am 2. April 2011</ref>
|Sprache=en
|Übersetzung=Regisseur Alan Smithee, ein Name, der mir nicht vertraut ist, erlaubt es seiner Handlung, sich natürlich zu entfalten. Er predigt niemals, und er verweilt nie beim Offensichtlichen. Seine Charaktere tun, was sie tun müssen.}}
=== Aufdeckung und Abkehr ===
1997 kam die Parodie ''An Alan Smithee Film: Burn Hollywood Burn'' (deutscher Titel ''[[Fahr zur Hölle Hollywood]]'') in die Kinos, was das Pseudonym einem größeren Publikum bekannt machte, nicht zuletzt weil [[Arthur Hiller (Regisseur)|Arthur Hiller]], der eigentliche Regisseur des Films, selbst seinen Namen zurückzog und analog zum Filmtitel das Pseudonym ''Alan Smithee'' benutzte. Der Film gilt als einer der schlechtesten Filme der 1990er Jahre und gewann fünf [[Goldene Himbeere]]n.
Der Film ''[[Supernova (2000)|Supernova]]'' ist der erste Post-Smithee-Film, dort führte ein gewisser ''Thomas Lee'' alias [[Walter Hill]] die Regie.
<!-- fand nur einen für den von 1990, siehe ''[[Das Kindermädchen]]'':
„Smithee wurde allerdings auch nach ''Supernova'' gesichtet, in einem Film namens ''The Guardian''.“
-->
== Verwendung ==
Die Verwendung dieses oder eines anderen Pseudonyms ist für Mitglieder der DGA streng reglementiert. Ein Regisseur, der für einen von ihm gedrehten Film seinen Namen nicht hergeben möchte, hat nach Sichtung des fertigen Films drei Tage Zeit, anzuzeigen, dass er ein Pseudonym verwenden möchte. Der Rat der DGA entscheidet binnen zwei Tagen über das Anliegen. Erhebt die Produktionsfirma Einspruch, entscheidet ein Komitee aus Mitgliedern der DGA und der Vereinigung der Film- und Fernsehproduzenten, ob der Regisseur ein Pseudonym angeben darf. Über die Beantragung muss der Regisseur Stillschweigen halten, ebenso darf er den fertigen Film nicht öffentlich kritisieren, wenn die DGA ihm die Verwendung eines Pseudonyms zugesteht.<ref>Siehe zu diesen Regelungen [http://www.dga.org/~/media/Files/Contracts/Agreements/2008%20BA/008ba2008article8.pdf Artikel 8, Abschnitt 8-211 des ''Basic Agreement''] (PDF; 125 kB) der DGA von 2008, abgerufen am 25. April 2012.</ref> Ein Antrag des Regisseurs auf Pseudonymisierung kann abgelehnt werden, so durfte [[Tony Kaye (Regisseur)|Tony Kaye]] den Namen Smithee bei dem Film ''[[American History X]]'' nicht einsetzen, obwohl er den Antrag stellte.
Auch bei nicht-US-amerikanischen Produktionen wird der Name verwendet, wie etwa beim [[Pilotfilm]] der Fernsehserie ''[[Schulmädchen (Fernsehserie)|Schulmädchen]]''. 2007 sendete die ARD am 8. und 9. August den zweiteiligen TV-Film ''Paparazzo''. Auch in diesem Werk erscheint anstatt des eigentlichen Regisseurs [[Stephan Wagner (Regisseur)|Stephan Wagner]] Alan Smithee im Abspann.
Regisseure, die das Pseudonym benutzt haben:
* [[Don Siegel]] und [[Robert Totten]] (für ''[[Frank Patch – Deine Stunden sind gezählt]]'')
* [[David Lynch]] (für die dreistündige Fernsehfassung von ''[[Der Wüstenplanet (Film)|Der Wüstenplanet]]'')
* [[Chris Christensen]] (''The Omega Imperative'')
* [[Gianni Bozzacchi]] (für ''I Love N.Y.'')
* [[Stuart Rosenberg]] (für ''Let’s Get Harry'')
* [[Richard C. Sarafian]] (für ''[[Starfire]]'')
* [[Dennis Hopper]] (für ''[[Catchfire]]'')
* [[Arthur Hiller (Regisseur)|Arthur Hiller]] (für ''[[Fahr zur Hölle Hollywood]]'')
* [[Rick Rosenthal]] (''Die Vögel II – Die Rückkehr'')
* [[Kevin Yagher]] (''[[Hellraiser IV – Bloodline]]'')
* [[William Lustig]] (''[[Maniac Cop 3]]'')
Der Pilotfilm der Serie ''[[MacGyver]]'' und die fünfte Folge der ersten Staffel führen einen Alan Smithee als Regisseur. Auf der TV-Serien-Seite ''TV Rage'' wird Jerrold Freedman als Regisseur des Pilotfilms angegeben. Der Regisseur der fünften Folge ist unbekannt.
Zu den Drehbuchautoren, die das Pseudonym benutzt haben, gehören [[Sam Raimi]] und [[Ivan Raimi]], die das Drehbuch zu ''Die total beknackte Nuß'' als ''Alan Smithee, Jr.'' und ''Alan Smithee, Sr.'' schrieben.
Auch in Computerspielen wird dieses Pseudonym angegeben: Im Abspann des Ego-Shooters ''Marine Sharpshooter IV'' aus dem Jahr 2008 wird als Art Director des Spiels ''Alan Smithee'' genannt.<ref>[https://www.spiegel.de/geschichte/regie-phantom-a-946618.html spiegel.de]</ref>
2014 produzierte die [[New York City|New Yorker]] Performance-Kompanie [[Big Dance Theater]] ''Alan Smithee Directed this Play'', das im August des Jahres auch in Berlin bei [[Tanz im August]] aufgeführt wurde.<ref>''Alan Smithee ist schuld!'' in [[Frankfurter Allgemeine Sonntagszeitung]] vom 17. August 2014, S. 36.</ref>
== Literatur ==
* Jeremy Braddock, Stephen Hock (Hrsg.): ''Directed by Allen Smithee.'' Foreword by Andrew Sarris. University of Minnesota Press, Minneapolis, London 2001, ISBN 0-8166-3534-X.
== Weblinks ==
* {{IMDb|nm0000647}}
* [http://www.abc.net.au/rn/arts/atoday/stories/s353584.htm Artikel über Smithee von ABC Online (englisch)]
* [https://www.spiegel.de/geschichte/regie-phantom-a-946618.html Der Mann, der niemals lebte, Spiegel Online einestages]
* [http://dradiowissen.de/beitrag/alan-smithee-die-film-legende-lebt Alan Smithee lebt!, DRadio Wissen]
== Einzelnachweise ==
<references />
{{Normdaten|TYP=p|GND=123396956|VIAF=86737339}}
[[Kategorie:Fiktive Person|Smithee, Alan]]
[[Kategorie:Pseudonym]]
[[Kategorie:Sammelpseudonym|Smithee, Alan]]
[[Kategorie:Werk von Alan Smithee]]</text>
<sha1>gqeuf21bfjwviq36ay4kmbwms1nkrem</sha1>
</revision>
</page>
</mediawiki>
Output (extremely unclean):
'''Alan Smithee''' steht als [[Pseudonym]] für einen fiktiven Regisseur, der Filme verantwortet, bei denen der eigentliche [[Regisseur]] seinen Namen nicht mit dem Werk in Verbindung gebracht haben möchte. Von 1968 bis 2000 wurde es von der [[Directors Guild of America]] (DGA) für solche Situationen empfohlen, seither ist es '''Thomas Lee'''.<ref>[[Los Angeles Times|latimes]].com: [http://articles.latimes.com/2000/jan/15/entertainment/ca-54271 ''Name of Director Smithee Isn't What It Used to Be''], zuletzt geprüft am 2. April 2011.</ref> ''Alan Smithee'' ist jedoch weiterhin in Gebrauch.
Alternative Schreibweisen sind unter anderem die Ursprungsvariante ''Al'''len''' Smithee'' sowie ''Alan Sm'''y'''thee'' und ''A'''dam''' Smithee''. Auch zwei teilweise asiatisch anmutende Schreibweisen ''Alan Smi Thee'' und ''Sumishii Aran'' gehören – so die [[Internet Movie Database]] – dazu.<ref name="IMDb">[http://www.imdb.com/name/nm0000647/ Eigener Eintrag für ''Alan Smithee'' in der IMDb]</ref>
== Geschichte ==
=== Entstehung ===
Das Pseudonym entstand 1968 infolge der Arbeiten am Western-Film ''Death of a Gunfighter'' (deutscher Titel ''[[Frank Patch – Deine Stunden sind gezählt]]''). Regisseur [[Robert Totten]] und Hauptdarsteller [[Richard Widmark]] gerieten in einen Streit, woraufhin [[Don Siegel]] als neuer Regisseur eingesetzt wurde.
Der Film trug nach Abschluss der Arbeiten noch deutlich Tottens [[Manier (Stil)|Handschrift]], der auch mehr Drehtage als Siegel daran gearbeitet hatte, weshalb dieser die Nennung seines Namens als Regisseur ablehnte. Totten selbst lehnte aber ebenfalls ab. Als Lösung wurde ''Allen Smithee'' als ein möglichst einzigartiger Name gewählt.<ref>[http://www.imdb.com/name/nm0000647/bio ''Biography for Alan Smithee''] in der Internet Movie Database</ref>
In den zeitgenössischen Kritiken wurde der Regisseur u. a. von [[Roger Ebert]] mit den Worten gelobt:
{{Zitat
|Text=Director Allen Smithee, a name I’m not familiar with, allows his story to unfold naturally. He never preaches, and he never lingers on the obvious. His characters do what they have to do.<ref>rogerebert.[[Chicago Sun-Times|suntimes]].com: [https://www.rogerebert.com/reviews/death-of-a-gunfighter-1969 ''Death of a Gunfighter''], zuletzt geprüft am 2. April 2011</ref>
|Sprache=en
|Übersetzung=Regisseur Alan Smithee, ein Name, der mir nicht vertraut ist, erlaubt es seiner Handlung, sich natürlich zu entfalten. Er predigt niemals, und er verweilt nie beim Offensichtlichen. Seine Charaktere tun, was sie tun müssen.}}
=== Aufdeckung und Abkehr ===
1997 kam die Parodie ''An Alan Smithee Film: Burn Hollywood Burn'' (deutscher Titel ''[[Fahr zur Hölle Hollywood]]'') in die Kinos, was das Pseudonym einem größeren Publikum bekannt machte, nicht zuletzt weil [[Arthur Hiller (Regisseur)|Arthur Hiller]], der eigentliche Regisseur des Films, selbst seinen Namen zurückzog und analog zum Filmtitel das Pseudonym ''Alan Smithee'' benutzte. Der Film gilt als einer der schlechtesten Filme der 1990er Jahre und gewann fünf [[Goldene Himbeere]]n.
Der Film ''[[Supernova (2000)|Supernova]]'' ist der erste Post-Smithee-Film, dort führte ein gewisser ''Thomas Lee'' alias [[Walter Hill]] die Regie.
<!-- fand nur einen für den von 1990, siehe ''[[Das Kindermädchen]]'':
„Smithee wurde allerdings auch nach ''Supernova'' gesichtet, in einem Film namens ''The Guardian''.“
-->
== Verwendung ==
Die Verwendung dieses oder eines anderen Pseudonyms ist für Mitglieder der DGA streng reglementiert. Ein Regisseur, der für einen von ihm gedrehten Film seinen Namen nicht hergeben möchte, hat nach Sichtung des fertigen Films drei Tage Zeit, anzuzeigen, dass er ein Pseudonym verwenden möchte. Der Rat der DGA entscheidet binnen zwei Tagen über das Anliegen. Erhebt die Produktionsfirma Einspruch, entscheidet ein Komitee aus Mitgliedern der DGA und der Vereinigung der Film- und Fernsehproduzenten, ob der Regisseur ein Pseudonym angeben darf. Über die Beantragung muss der Regisseur Stillschweigen halten, ebenso darf er den fertigen Film nicht öffentlich kritisieren, wenn die DGA ihm die Verwendung eines Pseudonyms zugesteht.<ref>Siehe zu diesen Regelungen [http://www.dga.org/~/media/Files/Contracts/Agreements/2008%20BA/008ba2008article8.pdf Artikel 8, Abschnitt 8-211 des ''Basic Agreement''] (PDF; 125 kB) der DGA von 2008, abgerufen am 25. April 2012.</ref> Ein Antrag des Regisseurs auf Pseudonymisierung kann abgelehnt werden, so durfte [[Tony Kaye (Regisseur)|Tony Kaye]] den Namen Smithee bei dem Film ''[[American History X]]'' nicht einsetzen, obwohl er den Antrag stellte.
Auch bei nicht-US-amerikanischen Produktionen wird der Name verwendet, wie etwa beim [[Pilotfilm]] der Fernsehserie ''[[Schulmädchen (Fernsehserie)|Schulmädchen]]''. 2007 sendete die ARD am 8. und 9. August den zweiteiligen TV-Film ''Paparazzo''. Auch in diesem Werk erscheint anstatt des eigentlichen Regisseurs [[Stephan Wagner (Regisseur)|Stephan Wagner]] Alan Smithee im Abspann.
Regisseure, die das Pseudonym benutzt haben:
* [[Don Siegel]] und [[Robert Totten]] (für ''[[Frank Patch – Deine Stunden sind gezählt]]'')
* [[David Lynch]] (für die dreistündige Fernsehfassung von ''[[Der Wüstenplanet (Film)|Der Wüstenplanet]]'')
* [[Chris Christensen]] (''The Omega Imperative'')
* [[Gianni Bozzacchi]] (für ''I Love N.Y.'')
* [[Stuart Rosenberg]] (für ''Let’s Get Harry'')
* [[Richard C. Sarafian]] (für ''[[Starfire]]'')
* [[Dennis Hopper]] (für ''[[Catchfire]]'')
* [[Arthur Hiller (Regisseur)|Arthur Hiller]] (für ''[[Fahr zur Hölle Hollywood]]'')
* [[Rick Rosenthal]] (''Die Vögel II – Die Rückkehr'')
* [[Kevin Yagher]] (''[[Hellraiser IV – Bloodline]]'')
* [[William Lustig]] (''[[Maniac Cop 3]]'')
Der Pilotfilm der Serie ''[[MacGyver]]'' und die fünfte Folge der ersten Staffel führen einen Alan Smithee als Regisseur. Auf der TV-Serien-Seite ''TV Rage'' wird Jerrold Freedman als Regisseur des Pilotfilms angegeben. Der Regisseur der fünften Folge ist unbekannt.
Zu den Drehbuchautoren, die das Pseudonym benutzt haben, gehören [[Sam Raimi]] und [[Ivan Raimi]], die das Drehbuch zu ''Die total beknackte Nuß'' als ''Alan Smithee, Jr.'' und ''Alan Smithee, Sr.'' schrieben.
Auch in Computerspielen wird dieses Pseudonym angegeben: Im Abspann des Ego-Shooters ''Marine Sharpshooter IV'' aus dem Jahr 2008 wird als Art Director des Spiels ''Alan Smithee'' genannt.<ref>[https://www.spiegel.de/geschichte/regie-phantom-a-946618.html spiegel.de]</ref>
2014 produzierte die [[New York City|New Yorker]] Performance-Kompanie [[Big Dance Theater]] ''Alan Smithee Directed this Play'', das im August des Jahres auch in Berlin bei [[Tanz im August]] aufgeführt wurde.<ref>''Alan Smithee ist schuld!'' in [[Frankfurter Allgemeine Sonntagszeitung]] vom 17. August 2014, S. 36.</ref>
== Literatur ==
* Jeremy Braddock, Stephen Hock (Hrsg.): ''Directed by Allen Smithee.'' Foreword by Andrew Sarris. University of Minnesota Press, Minneapolis, London 2001, ISBN 0-8166-3534-X.
== Weblinks ==
* {{IMDb|nm0000647}}
* [http://www.abc.net.au/rn/arts/atoday/stories/s353584.htm Artikel über Smithee von ABC Online (englisch)]
* [https://www.spiegel.de/geschichte/regie-phantom-a-946618.html Der Mann, der niemals lebte, Spiegel Online einestages]
* [http://dradiowissen.de/beitrag/alan-smithee-die-film-legende-lebt Alan Smithee lebt!, DRadio Wissen]
== Einzelnachweise ==
<references />
{{Normdaten|TYP=p|GND=123396956|VIAF=86737339}}
[[Kategorie:Fiktive Person|Smithee, Alan]]
[[Kategorie:Pseudonym]]
[[Kategorie:Sammelpseudonym|Smithee, Alan]]
[[Kategorie:Werk von Alan Smithee]]
Use SAX - it will let you cope with the huge file size.
import xml.sax
class WikiHandler(xml.sax.ContentHandler):
def __init__(self):
self.txt = ''
self.inside_text = False
def startElement(self, tag, attributes):
self.inside_text = tag == 'text'
# Call when an elements ends
def endElement(self, tag):
if self.inside_text and tag == 'text':
print(self.txt)
self.txt = ''
def characters(self, content):
if self.inside_text:
self.txt += content
if __name__ == "__main__":
parser = xml.sax.make_parser()
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
handler = WikiHandler()
parser.setContentHandler(handler)
parser.parse("wiki.xml")
Problem Description
Here is the text pattern I have:
05.04.0090
1
erhältlichen Tableau Interfaces
lassen sich zusätzliche GLT-Kontakte
aufschalten. Das System kann
die zwei Szenarien-Modi "Urlaub" und
Abwesenheit" verwalten. Für beide
Modi können bestimmte Parameter
programmiert werden.
Das WAREMA climatronic Bediengerät
kann preisgleich auch
in den Farben "schwarz" oder
"schwarz/silber" geliefert werden.
Liefern und montieren. 882,75 882,75
The above text block has item_code that has this norm to write 05.04.0090
then underneath is count of the item 1 then followed by description of product thenunit price in this case EU 882,75
and at the end total sum that is 882,74
What i want
I want to make key value pairs out of it like dict[{'item_code':'5.04.009','quant':'1','description':'TEXT','unit_price':'882,74','Total_sum':'88,75'}]
I will be using this pattern in spacy at the end to recognize the entities. Any suggestion regarding spacy would be great also
What I have tried?
pat= re.search(r'\d(.*?)\d',text,re.M)
print(pat.group())
Help or suggestion will be appreciated.
The pprint.pprint function is used for output. For an explanation of the regular expression used, please go to RegEx101.
import re
import pprint
data = '''
05.04.0090
1
erhältlichen Tableau Interfaces
lassen sich zusätzliche GLT-Kontakte
aufschalten. Das System kann
die zwei Szenarien-Modi "Urlaub" und
Abwesenheit" verwalten. Für beide
Modi können bestimmte Parameter
programmiert werden.
Das WAREMA climatronic Bediengerät
kann preisgleich auch
in den Farben "schwarz" oder
"schwarz/silber" geliefert werden.
Liefern und montieren. 882,75 882,75
05.04.0091
100
foo bar. 170,42 17042
'''
rx = r'''(?mx)
^
(?P<item_code>\d\d\.\d\d\.\d{4})
\s+
(?P<quantity>\d+)
\s+
(?P<description>\S[\s\S]*?)
[ ]+
(?P<unit_price>\d+(?:,\d\d)?)
[ ]+
(?P<total_sum>\d+(?:,\d\d)?)
$
'''
result = [m.groupdict() for m in re.finditer(rx, data)]
pprint.pprint(result)
Output:
[{'description': 'erhältlichen Tableau Interfaces\n'
'lassen sich zusätzliche GLT-Kontakte\n'
'aufschalten. Das System kann\n'
'\n'
'die zwei Szenarien-Modi "Urlaub" und\n'
'Abwesenheit" verwalten. Für beide\n'
'Modi können bestimmte Parameter\n'
'programmiert werden.\n'
'\n'
'Das WAREMA climatronic Bediengerät\n'
'kann preisgleich auch\n'
'\n'
'in den Farben "schwarz" oder\n'
'"schwarz/silber" geliefert werden.\n'
'Liefern und montieren.',
'item_code': '05.04.0090',
'quantity': '1',
'total_sum': '882,75',
'unit_price': '882,75'},
{'description': 'foo bar.',
'item_code': '05.04.0091',
'quantity': '100',
'total_sum': '17042',
'unit_price': '170,42'}]
I tried to find a solution online. But I wasn't successful. I would like to split a text like this:
that's the original:
'16.11., ARD, 20.15 Uhr: „Mein Schwiegervater, der Camper“
Vor einigen Jahren hat die ARD-Tochter
17.11., ARD, 20.15 Uhr: „Tatort: Die Pfalz von oben“
Natürlich knüpft der Jubiläums-„Tatort“ mit
18.11., ZDF, 20.15 Uhr: „Stumme Schreie“
„Erschütternd“ ist als Begriff fast noch zu'
This is, what I need:
['16.11., ARD, 20.15 Uhr: „Mein Schwiegervater, der Camper“
Vor einigen Jahren hat die ARD-Tochter',
'17.11., ARD, 20.15 Uhr: „Tatort: Die Pfalz von oben“
Natürlich knüpft der Jubiläums-„Tatort“ mit',
'18.11., ZDF, 20.15 Uhr: „Stumme Schreie“
„Erschütternd“ ist als Begriff fast noch zu']
This option would please me as well:
['16.11., ARD, 20.15 Uhr'], ['„Mein Schwiegervater, der Camper“
Vor einigen Jahren hat die ARD-Tochter'],
['17.11., ARD, 20.15 Uhr'] ['Tatort: Die Pfalz von oben“
Natürlich knüpft der Jubiläums-„Tatort“ mit'],
['18.11., ZDF, 20.15 Uhr'], ['„Stumme Schreie“
„Erschütternd“ ist als Begriff fast noch zu']
How can I get there?
I tried the split method and different other possibilities, but it didn't work out... regular expressions split might be an option, but I fail because there are two numbers in each line.
Thank you in advance, Viktor
First requirement:
import pprint
text = """'16.11., ARD, 20.15 Uhr: „Mein Schwiegervater, der Camper“
Vor einigen Jahren hat die ARD-Tochter
17.11., ARD, 20.15 Uhr: „Tatort: Die Pfalz von oben“
Natürlich knüpft der Jubiläums-„Tatort“ mit
18.11., ZDF, 20.15 Uhr: „Stumme Schreie“
„Erschütternd“ ist als Begriff fast noch zu'"""
pprint.pprint(text.split('\n\n'))
Output:
['16.11., ARD, 20.15 Uhr: „Mein Schwiegervater, der Camper“\n'
'Vor einigen Jahren hat die ARD-Tochter ',
'17.11., ARD, 20.15 Uhr: „Tatort: Die Pfalz von oben“\n'
'Natürlich knüpft der Jubiläums-„Tatort“ mit',
'18.11., ZDF, 20.15 Uhr: „Stumme Schreie“\n'
'„Erschütternd“ ist als Begriff fast noch zu']
Second requirement:
lst = text.split('\n\n')
lst2 = [[elem] for elem in sum((i.split(': ',1) for i in lst), [])]
print(lst2)
Output:
[['16.11., ARD, 20.15 Uhr'],
['„Mein Schwiegervater, der Camper“\nVor einigen Jahren hat die ARD-Tochter '],
['17.11., ARD, 20.15 Uhr'],
['„Tatort: Die Pfalz von oben“\nNatürlich knüpft der Jubiläums-„Tatort“ mit'],
['18.11., ZDF, 20.15 Uhr'],
['„Stumme Schreie“\n„Erschütternd“ ist als Begriff fast noch zu']]
you can split the string on two new lines:
s = open('test', 'r').read()
s.split('\n\n')
Out[38]:
["'16.11., ARD, 20.15 Uhr: „Mein Schwiegervater, der Camper“\nVor einigen Jahren hat die ARD-Tochter",
'17.11., ARD, 20.15 Uhr: „Tatort: Die Pfalz von oben“\nNatürlich knüpft der Jubiläums-„Tatort“ mit',
"18.11., ZDF, 20.15 Uhr: „Stumme Schreie“\n„Erschütternd“ ist als Begriff fast noch zu'"]
Then you can split more on single new lines('\n') or colons(':') if you need to.