"testing_tagged_sentence_basename = 'dataset_ner_manatee_non-crossing_only-relevant_training' # TODO: replace with _testing"
]
},
{
...
...
@@ -443,7 +445,7 @@
},
{
"cell_type": "code",
"execution_count": 14,
"execution_count": 13,
"id": "694daad3-2b04-4e3f-8bfb-bb3fe0c87dd3",
"metadata": {},
"outputs": [],
...
...
@@ -684,31 +686,77 @@
"id": "8cd67749-9c40-4f9d-a889-5f12dc0c380d",
"metadata": {},
"source": [
"### Qualitative evaluation\n",
"\n",
"We will use our best model to recognize entities in an example sentence."
]
},
{
"cell_type": "code",
"execution_count": 34,
"id": "b83d2a1a-4d8f-400a-a8e8-cba43fe41a83",
"execution_count": 67,
"id": "fa3c2194-d24d-4cb6-aeee-db2bdf67b37e",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná v Poděbradech 17. prosince 1370\n"
]
"data": {
"text/markdown": [
"**[Document 386/14](https://nlp.fi.muni.cz/projekty/ahisto/portal/book.php?book=386&page=14):** XV. asi stejně vzácné, jako v Čechách před stoletím XIII.) Příznivější bylo by už srovnání literární tvorby moravské a slovenské, jež by nás poučilo, že ani Morava vlastně nemá na literární tvorbě v národním jazyku až do století XV. takřka žádného podílu. Ještě příznivěji by se nám objevila tato ukázka literární tvorby slovenské, kdybychom měli na zřeteli literární památky sourodé. Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná v Poděbradech 17. prosince 1370. Nejstarší listina moravská je zápis markrabí Jošta moravského jeho bratru Prokopovi ze dne 17. března 1389. Nejstarší listina, vydaná z královské kanceláře české je zápisný list krále Václava ze dne 25. srpna 1394. Nejstarší listina městská (nehledíme-li k listině pražského měšťana Petra Neumburgera, o jejímž jazyku rozhodl podle všeho pan Boček z Kunštátu) je list soukeníků v Rychnově nad Kněžnou ze dne 8. července 1378.8) Nejstarší zápis městský čte se v knize města Hradčan, kde vklady o koupí domů neb platů od roku 1388 se vyskytují i v. jazyce národním.9) Nejstarší listina národním jazykem psaná ze Slezska je z roku 1432 a až z roku 1441–42 jsou tam první listiny knížecí.10) Ale teprve v druhé polovici XV. století stává se čeština v Čechách. a na Moravě výhradním jazykem soudů a úřadů stavovských. Desky zemské píší se výhradně po česku na Moravě až od roku 1480 (ač se na soudě zemském už od počátku XV. století počíná užívati češtiny) a v Čechách od roku 1495,11) až v soukromém životě šlechty od počátku XV. století i v písemném styku je čeština již všeobecně rozšířena. Do městského života proniká čeština až počátkem XV. století. V samém hlavním městě království až snad Karel IV. rozhodl o jejím zrovno7) Staly se sice pokusy obohatiti slovenskou slovesnost literárními produkty domněle staršího data a původu, leč novější kritika jasně ukázala, že tu jde vesměs o padělky. Srv. moji studii o věci v Hanušo vě sborníku str. 360, kde uvedena je i příslušná literatura. Literární památky, které uvádí Dr. Milan Hodža v svém dile československý rozkol, str. 51–52, a to i „pôvodina“ zlatým písmem psaná z městečka Bánovec, jsou překlady listin z pozdější doby, ze století XVII. a XVIII. Podobně je tomu i s donační listinou kláštera v Okoličném domněle z roku 1435, kterou roku 1928 vydal (chybně!) B. Klimo: Okoličanska listina z roku 1435 ve Sborníku Matice slovenskej, roč. VI., str. 55–56. Zachovala se v obyčejném, neověřeném přepise ze XVII. století a z téže doby pochází i její jazyk. Nejstarší až dosud známou památkou slovenskou byl fragment kázání z roku 1477–1480, který vydal Frant. Pastrnek: Stará jazyková památka slovenská, Sborník filologický české akademie, VII. (1922), str. 100—127. 8) Srv. Aug. Sedláček, Nejstarší list českým jazykem psa n ý v časopise čes. musea LXI. (1887), str. 517—520. - Herm. Jireček, Právnický život v Čechách a na Moravě, Praha, 1903, str. 171–72. 9) Srv. Tomek W. W., Dějepis města Prahy, Praha 1871, II., str. 518. - Na Malé straně, která se řídila právem magdeburským, zápisy v knize městské z r. 1403 jsou sice latinské, avšak výklad právnických rčení příčiňuje se už zhusta po česku, nikdy po německu. 10) Jan Kapras: Těšínsko, součástí českého státu, Mor. Ostrava. 11) J. Klik, Národnostní poměry v Čechách od válek husitských, Český čas. hist. XXVII. (1921), str. 31; J. Kapras, Přehled vývoje české otázky jazykové, Praha, 1910, str. 4-6; Herm. Jireček, Právnický život v Čechách a na Moravě, l. c. 296. XIV"
" 'Ještě příznivěji by se nám objevila tato ukázka literární tvorby slovenské, kdybychom měli na zřeteli literární památky sourodé.',\n",
" 'Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná '\n",
" 'v Poděbradech 17. prosince 1370.',\n",
" 'Nejstarší listina moravská je zápis markrabí Jošta moravského jeho bratru Prokopovi ze dne 17. března 1389.',\n",
")\n",
")"
]
},
{
"cell_type": "code",
"execution_count": 90,
"id": "b83d2a1a-4d8f-400a-a8e8-cba43fe41a83",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná v Poděbradech 17. prosince 1370\n"
In this notebook, we will train a number of named entity recognition (NER) models using different training schedules and training/validation datasets. Then, we will select the best model using our test dataset.
To train our models, we will use two different schedules and four different types of datasets from two different methods for finding named entities. In total, we will train 16 different NER models.
We will fine-tune [a pretrained `xlm-roberta-base` model][1] with the following two schedules for our masked language modeling (MLM) and named entity recognition (NER) objectives:
- First with MLM for at most 5 epochs and then with NER for at most 5 epochs.
- Using both MLM and NER in parallel for at most 10 epochs.
**[Document 386/14](https://nlp.fi.muni.cz/projekty/ahisto/portal/book.php?book=386&page=14):** XV. asi stejně vzácné, jako v Čechách před stoletím XIII.) Příznivější bylo by už srovnání literární tvorby moravské a slovenské, jež by nás poučilo, že ani Morava vlastně nemá na literární tvorbě v národním jazyku až do století XV. takřka žádného podílu. Ještě příznivěji by se nám objevila tato ukázka literární tvorby slovenské, kdybychom měli na zřeteli literární památky sourodé. Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná v Poděbradech 17. prosince 1370. Nejstarší listina moravská je zápis markrabí Jošta moravského jeho bratru Prokopovi ze dne 17. března 1389. Nejstarší listina, vydaná z královské kanceláře české je zápisný list krále Václava ze dne 25. srpna 1394. Nejstarší listina městská (nehledíme-li k listině pražského měšťana Petra Neumburgera, o jejímž jazyku rozhodl podle všeho pan Boček z Kunštátu) je list soukeníků v Rychnově nad Kněžnou ze dne 8. července 1378.8) Nejstarší zápis městský čte se v knize města Hradčan, kde vklady o koupí domů neb platů od roku 1388 se vyskytují i v. jazyce národním.9) Nejstarší listina národním jazykem psaná ze Slezska je z roku 1432 a až z roku 1441–42 jsou tam první listiny knížecí.10) Ale teprve v druhé polovici XV. století stává se čeština v Čechách. a na Moravě výhradním jazykem soudů a úřadů stavovských. Desky zemské píší se výhradně po česku na Moravě až od roku 1480 (ač se na soudě zemském už od počátku XV. století počíná užívati češtiny) a v Čechách od roku 1495,11) až v soukromém životě šlechty od počátku XV. století i v písemném styku je čeština již všeobecně rozšířena. Do městského života proniká čeština až počátkem XV. století. V samém hlavním městě království až snad Karel IV. rozhodl o jejím zrovno7) Staly se sice pokusy obohatiti slovenskou slovesnost literárními produkty domněle staršího data a původu, leč novější kritika jasně ukázala, že tu jde vesměs o padělky. Srv. moji studii o věci v Hanušo vě sborníku str. 360, kde uvedena je i příslušná literatura. Literární památky, které uvádí Dr. Milan Hodža v svém dile československý rozkol, str. 51–52, a to i „pôvodina“ zlatým písmem psaná z městečka Bánovec, jsou překlady listin z pozdější doby, ze století XVII. a XVIII. Podobně je tomu i s donační listinou kláštera v Okoličném domněle z roku 1435, kterou roku 1928 vydal (chybně!) B. Klimo: Okoličanska listina z roku 1435 ve Sborníku Matice slovenskej, roč. VI., str. 55–56. Zachovala se v obyčejném, neověřeném přepise ze XVII. století a z téže doby pochází i její jazyk. Nejstarší až dosud známou památkou slovenskou byl fragment kázání z roku 1477–1480, který vydal Frant. Pastrnek: Stará jazyková památka slovenská, Sborník filologický české akademie, VII. (1922), str. 100—127. 8) Srv. Aug. Sedláček, Nejstarší list českým jazykem psa n ý v časopise čes. musea LXI. (1887), str. 517—520. - Herm. Jireček, Právnický život v Čechách a na Moravě, Praha, 1903, str. 171–72. 9) Srv. Tomek W. W., Dějepis města Prahy, Praha 1871, II., str. 518. - Na Malé straně, která se řídila právem magdeburským, zápisy v knize městské z r. 1403 jsou sice latinské, avšak výklad právnických rčení příčiňuje se už zhusta po česku, nikdy po německu. 10) Jan Kapras: Těšínsko, součástí českého státu, Mor. Ostrava. 11) J. Klik, Národnostní poměry v Čechách od válek husitských, Český čas. hist. XXVII. (1921), str. 31; J. Kapras, Přehled vývoje české otázky jazykové, Praha, 1910, str. 4-6; Herm. Jireček, Právnický život v Čechách a na Moravě, l. c. 296. XIV
Nejstarší listina vůbec naším národním jazykem psaná je smlouva mezi Petrem Neumburgerem a panem Bočkem z Kunštátu, sepsaná v Poděbradech 17. prosince 1370