Folklore Lab

Data-driven monitoring of corpus annotation coverage, structure, and classification quality.

This page is an analytics lab inspired by proven workflows from international folklore corpora.

Updated: 2026-02-12 20:57 UTC

Total texts

10

KZ+EN coverage

10

ATU-linked texts

10

Metadata-linked texts

10

Citation-ready texts

10

Documents

10

Tokens

137

Unique terms

126

Hapax (single use)

115

TTR

91.97%

Average doc length

13.7

Voyant-style text analytics

Most frequent terms

  • алып 2 · 1.46%
  • аман 2 · 1.46%
  • ауыл 2 · 1.46%
  • береді 2 · 1.46%
  • жол 2 · 1.46%
  • жіп 2 · 1.46%
  • күміс 2 · 1.46%
  • оны 2 · 1.46%
  • соңғы 2 · 1.46%
  • түнде 2 · 1.46%
  • қалады 2 · 1.46%
  • адамдары 1 · 0.73%
  • адамын 1 · 0.73%
  • адасқан 1 · 0.73%

Context snippets (KWIC)

  • ...тыр соңғы демінде елге қалқан болады. Аңыз бойынша оның денесі тасқа айналып, шекара күзетіп тұр.

  • Жас аңшы жаралы қасқырды аман алып қалады. Кейін қасқыр үйірі сол жақсылықты қайтарып, оны ажалдан құтқарады.

  • Жетім қыз түнде жол таппай қалады. Ай сәулесі жерге күміс із салып, оны қауіптен алып шығады.

Frequent phrases (bi-grams)

Not enough data to render.

Analytical views

Term frequency chart

Not enough data to render.

Term trends (per 1000 tokens)

Not enough data to render.

Document length distribution

Not enough data to render.

Collection timeline (decades)

Not enough data to render.

ATU distribution (Top 12)

Not enough data to render.

Genre profile

Not enough data to render.

Regional map

Not enough data to render.

Collector activity

Collector Texts First year Last year
Айбек Н. 1 1975 1975
Әлихан Қ. 1 1958 1958
Гүлнар Е. 1 1951 1951
Данияр Т. 1 1938 1938
Ермек Р. 1 1980 1980
Марат С. 1 1962 1962
Нұрбек И. 1 1968 1968
Рауан Б. 1 1949 1949
Сабина Ө. 1 1943 1943
Салтанат Ж. 1 1971 1971

Metadata field coverage

Field Linked texts
Тақырып 10
Орындау контексі 10

Comparative benchmark with external corpora

Corpus Reference feature Our adoption Status Source
AFT Corpus Structured tale typing with ATU classes. ATU distribution and linkage metrics are active. Implemented Open Humanities Data
SKVR (Finnish Literary Society) Faceted filtering with export options (XML/CSV). Faceted corpus exploration is implemented through filters and analytics tables. Implemented skvr.fi
Kivike (Estonian Literary Museum) Rich metadata discovery by archive, geography, and person. Coverage monitoring across passport and metadata layers is implemented. Implemented kivike.kirmus.ee
Pangloss Collection (CNRS) Open linguistic audio archives with linked transcriptions. Next step: integrate audio/ELAN timeline layers. Next phase CNRS
Meertens FACT Automatic metadata enrichment and folktale classification. Next step: automatic ATU/motif suggestion tooling. Next phase Meertens Institute