Czynniki różnicujące wypowiedzi informatorów – analiza stylometryczna wywiadów biograficznych

Słowa kluczowe: relacje biograficzne, stylometria, język mówiony, klasyfikacja tekstów, metadane

Abstrakt

W artykule zostają zaproponowane sposoby analizy treści i metadanych wywiadów biograficznych metodami statystycznymi. Podstawą do przeprowadzenia serii eksperymentów stylometrycznych był specjalnie stworzony korpus o rozmiarze przekraczającym 1,2 mln jednostek leksykalnych. Na korpus złożyły się teksty wybranych relacji biograficznych pochodzących z Archiwum Historii Mówionej, Domu Spotkań z Historią i Ośrodka KARTA, udostępnianych na portalu: www.relacjebiograficzne.pl. W badaniach wykorzystano treści wywiadów biograficznych 41 osób przyporządkowanych do trzech kategorii tematycznych: Warszawa, wieś, ziemiaństwo. Głównym celem eksperymentów było ustalenie, jakie czynniki językowe różnicują mówców i które cechy (płeć, miejsce pochodzenia, wiek, długość wypowiedzi, temat) mogą mieć wpływ na klasyfikację. Badania przeprowadzono metodami językoznawstwa kwantytatywnego, a uzyskane wnioski pozwalają na wyznaczenie kierunku dalszych prac w zakresie stylometrii języka mówionego.

Biogram autora

Magdalena Kądzioła, Instytut Języka Polskiego Polskiej Akademii Nauk

Doktorantka w Instytucie Języka Polskiego PAN, absolwentka polonistyki i Międzywydziałowych Indywidulanych Studiów Humanistycznych na Uniwersytecie Jagiellońskim. Zajmuje się badaniem sygnału autorskiego w języku mówionym.

magda.kadziola@gmail.com

Bibliografia

Bartmiński J., O wartościach słowa mówionego, [w:] Historia mówiona w świetle etnolingwistyki, red. S. Niebrzegowska-Bartmińska, S. Wasiuta, Lublin 2008, s. 9–16.

Burrows J.F., „Delta”: A Measure of Stylistic Difference and a Guide to Likely Authorship, „Literary and Linguistic Computing”, nr 17 (2002), s. 267–287.

Burrows J.F., Computation into Criticism: A Study of Jane Austen’s Novels and an Experiment in Method, Oxford 1987.

Eder M., Metody ścisłe w językoznawstwie i pułapki pozornego obiektywizmu. Przykład stylometrii, „Teksty Drugie”, nr 2 (2014), s. 90–105.

Eder M., Style-markers in authorship attribution: a cross-language study of the authorial fingerprint, „Studies in Polish Linguistics”, nr 6 (2011), s. 99–114.

Eder M., Kestemont, M., Rybicki J., Stylometry with R: A package for computational text analysis, „R Journal”, nr 16 (1)(2016), s. 107–121.

Eder M., Rybicki J., Młynarczyk K. [et al.], 1000 Novels Corpus, CLARIN-PL digital repository, 2016.

Gocół D., Opozycja swoi/obcy w relacjach radomskiego Czerwca ’76, [w:] Tekst – gatunek – dyskurs na przełomie XX i XXI wieku, red. J. Szadura, Lublin 2012, s. 135–152.

Grochola-Szczepanek H., Badania fokusowe mowy mieszkańców wsi, „Socjolingwistyka” nr 20, (2006), s. 19−35.

Herz J., Bellaachia A., The authorship of audacity: Data mining and stylometric analysis of Barack Obama speeches, [w:] Proceedings of the International Conference on Data Mining, b.m. 2014.

Hoover D.L., Corpus Stylistics, Stylometry, and the Styles of Henry James, „Style”, nr 41 (2) (2007), s. 174–203.

Labocha J., Pragmatyczne mechanizmy składni języka mówionego, „Slavia Occidentalis”, nr 69 (2012), s. 139–145.

Le X., Lancashire I., Hirst G., Jokel R., Longitudinal Detection of Dementia through Lexical and Syntactic Changes in Writing: A Case Study of Three British Novelists, „Literary and Linguistic Computing”, nr 26 (4) (2011), s. 435–461.

Lewandowska I., Wywiad jako technika zdobywania informacji źródłowych w badaniu historii
najnowszej, „Echa Przeszłości”, t. V (2004), s. 279–299.

Mandravickaitė J., Krilavičius T., Stylometric Analysis of Parliamentary Speeches: Gender Dimension, [w:] Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing, red. T. Erjavec [et al.], Valencia 2017, s. 102–107.

Pacławska E., Zróżnicowanie gatunków mowy w tekstach historii mówionej, [w:] Historia mówiona w świetle etnolingwistyki, red. S. Niebrzegowska-Bartmińska, S. Wasiuta, Lublin 2008, s. 47–62.

Pęzik P., Język mówiony w NKJP, [w:] Narodowy Korpus Języka Polskiego, red. A. Przepiórkowski, M. Bańko, R. Górski, B. Lewandowska-Tomaszczyk, Warszawa 2012, s. 37–48.

Rybicki J., Vive la différence: Tracing the (Authorial) Gender Signal by Multivariate Analysis of Word Frequencies, „Digital Scholarship in the Humanities”, nr 31 (4) (2016), s. 746–761.

Weidman S.G., O’Sullivan J., The limits of distinctive words: Re-evaluating literature’s gender marker debate, „Digital Scholarship in the Humanities”, nr 33 (2) (2017), s. 374–390.
Opublikowane
2019-06-26
Dział
Artykuły i studia