🔍 About the Corpus

Somali National Corpus - Korpuska Qaranka ee Af-Soomaaliga

Somali National Corpus is a growing digital collection of authentic Somali texts designed for linguistic research, education, and language development. The corpus is continuously expanding, as new texts are regularly added and processed.

The purpose of this project is to support the systematic study of the Somali language using real-life language data.

What is a Corpus?

A corpus is a structured and searchable collection of texts that allows researchers, teachers, and students to study how language is used in real contexts.

Unlike a dictionary, which focuses on definitions and translations, a corpus allows users to:

Search words in context (KWIC – Key Word in Context)
Analyze word frequency
Explore collocations (words that commonly occur together)
Study grammatical patterns
Examine authentic usage examples

This platform is designed as a linguistic research tool, not simply a keyword search engine.

Key Features

Concordance search with left and right context
Word frequency lists
Collocation analysis (MI-score, t-score)
Corpus statistics (tokens, types, TTR)
Adjustable context window
Advanced search options

Purpose and Vision

The long-term goal of this corpus is to:

Support Somali language research
Provide tools for teachers and students
Strengthen Somali linguistic resources
Contribute to digital language infrastructure
Encourage academic study of Somali

The corpus is continuously developed and improved as part of an ongoing effort to build a professional Somali language research platform.

About the Founder

The project was founded and is led by Liban Iyow, an educator with over 15 years of teaching experience. He holds a teaching degree from Malmö University and is currently a student of African Languages at the University of Gothenburg.

With a strong interest in linguistics, language structure, and language technology, the goal of this project is to contribute to the academic and digital development of the Somali language.

The Somali Linguistic Corpus is built as a long-term initiative. It aims to provide researchers, teachers, students, and language professionals with access to structured and searchable Somali language data.

This project reflects a commitment to strengthening Somali linguistic infrastructure and supporting future research in corpus linguistics, language education, and digital humanities.

Korpuska Qaranka ee Af-Soomaaliga

Koorbaska Luuqadda Soomaaliyeed waa madal cilmiyeed loogu talagalay raadinta iyo falanqaynta qoraallo dhab ah oo Af-Soomaali ah. Madashan waxay u oggolaanaysaa isticmaalayaasha inay baaraan isticmaalka erayada, soo noqnoqoshadooda (frequency), tusaalayaasha ku jira macnaha dhabta ah (KWIC), iyo isku-xirnaanta erayada (collocations).

Ujeeddada koorbaskani waa in la abuuro kayd dijitaal ah oo matala isticmaalka dhabta ah ee Af-Soomaaliga sida loogu adeegsado warbaahinta, qoraallada rasmiga ah, iyo ilaha kale ee qoraalka.

Waa maxay Koorbas?

Koorbas waa ururin qoraallo luqadeed oo si nidaamsan loo soo xulay si ay u matalaan nooc gaar ah oo luqad ah.

Koorbaska casriga ah waa:

Qoraallo dhab ah (authentic) oo laga soo qaatay ilo rasmi ah sida buugaag, warbaahin, warbixinno, muxaadarooyin, iyo hadallo la duubay.
Qoraallo kombiyuutar lagu akhrin karo (machine-readable), taas oo ka dhigaysa in si dijitaal ah loo baari karo loona falanqayn karo.
Qoraallo si taxaddar leh loo doortay si ay u noqdaan matalaad (representative) isticmaalka luqadda.

Tani waxay ka dhigan tahay in koorbasu aanu ahayn qaamuus sharaxaya macnaha erayada, balse uu yahay kayd muujinaya sida erayadu dhab ahaan ugu muuqdaan qoraalka iyo hadalka.

Maxaan ka ogaan karaa Koorbaskaan?

1. Raadinta Eray (Search / Query)

Waxaad geli kartaa eray, waxaana lagu tusayaa dhammaan meelaha uu kaga jiro qoraallada koorbaska.

2. Concordance (KWIC)

KWIC (Keyword in Context) waxay muujisaa erayga aad raadisay iyadoo la socda ereyada ka horreeya iyo ka dambeeya. Tani waxay kuu oggolaanaysaa inaad aragto sida erayga loo adeegsaday macnaha dhabta ah.

3. Frequency (Soo Noqnoqosho)

Waxaad arki kartaa inta jeer ee eray gaar ahi ku soo noqday koorbaska, iyo sida uu uga badan yahay ama uga yar yahay erayada kale.

4. Collocations (Isku-xirnaanta Erayada)

Koorbasku wuxuu muujin karaa erayada inta badan la socda erayga aad raadisay. Tani waxay kaa caawinaysaa fahamka isku-dhafka erayada ee caadiga ah.

Tusaale ahaan, haddii la baaro eray, waxaa la ogaan karaa sifada ama erayada inta badan la socda.

Faa’iidada Koorbaska

Isticmaalka koorbas wuxuu:

Ka caawiyaa cilmi-baarayaasha barashada qaab-dhismeedka luqadda
Ka taageeraa ardayda fahamka isticmaalka saxda ah ee erayada
Ka caawiyaa qorayaasha iyo turjubaanada hubinta isticmaalka erayada
Kor u qaadaa cilmi-baarista Af-Soomaaliga
Xaddidaadaha Koorbaska
Inkasta oo koorbasu yahay qalab awood badan, haddana:
- Ma dabooli karo dhammaan jumladaha suurtogalka ah ee luqadda.
- Waxaa ku jiri kara khaladaad ku jira qoraallada asalka ah.
- Helitaanka tusaale koorbas ku jira macnaheedu ma aha in isticmaalkaasi mar walba sax yahay.
Sidoo kale, haddii eray ama oraah aan laga helin koorbas gaar ah, taasi macnaheedu ma aha inuusan ku jirin luqadda guud ahaan.