Créez un corpus de Shakespeare avec FileSystemScan
Pour cet exemple, on utilise un répertoire incluant les fichiers texte de toutes les œuvres de Shakespeare. Commencez par importer le contenu textuel des livres avec FileSystemMap, en réunissant seulement le contenu textuel lui-même.
Afficher l'entrée complète de Wolfram Language
In[2]:=
![Click for copyable input](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/In_67.png)
works = Values[
FileSystemMap[Import, FileNameJoin[{$HomeDirectory, "Books"}], 2,
FileNameForms -> "*.txt"][[1]]]
Out[2]=
![](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/O_51.png)
Construisez un corpus unique en utilisant StringJoin.
In[3]:=
![Click for copyable input](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/In_68.png)
corpus = StringJoin[works]
Out[3]=
![](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/O_52.png)
Le corpus peut désormais être traité comme une chaîne de caractères unique pouvant faire l'objet d'une recherche, ce qui permet d'utiliser de manière triviale des applications de traitement de texte avancées. Déterminez quels pays sont référencés dans ces ouvrages en utilisant TextCases, tout en filtrant les doublons et les problèmes de casse.
In[4]:=
![Click for copyable input](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/In_69.png)
countries =
ToLowerCase[TextCases[corpus, "Country"]] // DeleteDuplicates
Out[4]=
![](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/O_53.png)
Afficher l'entrée complète de Wolfram Language
Construisez un GeoListPlot des pays mentionnés dans les œuvres de Shakespeare.
In[6]:=
![Click for copyable input](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/In_71.png)
GeoListPlot[Interpreter["Country"] /@ countries]
Out[6]=
![](assets.fr/create-a-shakespearean-corpus-with-filesystemscan/O_54.png)