Corpus List

Adyghe Сorpus

API for Adyghe corpus (http://web-corpora.net/AdygheCorpus/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('ady')
results = corp.search('лӏыгъэ', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"лӏыгъэ": 100%|██████████| 10/10 [00:01<00:00,  5.35docs/s]

1 Партизан отрядхэм язэхэщэнкӏэ Н. Теуцожьым лӏыгъэ шъыпкъэ зэрихьэщтыгъэу зэӏукӏэм къыщаӏуагъ.
2 Лӏыгъэ пхэмылъэу, шъхьакӏуи уимыӏэу щытмэ, узыфыримыкъужьырэмэ, ешъоным къыуимышӏэн щыӏэп.
3 Тапэкӏи Мэхъош Руслъан икъэлэмыпэ къэмыуцэкоу илъэпкъ гупсэ шӏулъэгъу мыухыжьэу фыриӏэр гушхуагъэрэ лӏыгъэ пытагъэрэ хэлъэу къызщигъэлъэгъорэ тхыгъэ шӏагъохэмкӏэ итворчествэ къыӏэтынэу, адыгэ литературэр ыпэкӏэ лъызыгъэкӏотэн зылъэкӏыщт тхылъхэмкӏэ тигъэгушӏон ылъэкӏыным пае псауныгъэ дэгъу иӏэу ищыӏэныгъэ гъогу, рэзэныгъэ хигъуатэзэ, рыкӏонэу фэтэӏо.
4 Лӏыгъэ ахэлъ, къэрар яӏ, зыпкъ итых, ӏэдэб яӏ.
5 Адыгэ Республикэм ищытхъу шъуӏэтыгъэ, лӏыгъэ шъыпкъэ зешъухьагъэ.
6 Кӏэлэегъаджэхэм, медицинэм иӏофышӏэхэм, Хэгъэгу зэошхом лӏыгъэ щызезыхьагъэмэ защыбгъэгъуазэ пшӏоигъомэ, музеир еджапӏэ пфэхъущт.
7 Ныбжьыкӏэзэ ипсауныгъэ къызызэщэкъоми, ынэхэм агъэгумэкӏэу, зэрилъэгъурэм нахь къыщыкӏэ зэхъуми, ицӏыфыгъэрэ имурадрэ зыкӏи акӏэрыкӏыгъэп - лӏыгъэ хэлъыгъ.
8 Ау сыдэу щытми, Советскэ правительствэм иунашъо дзэкӏолӏхэм агъэцэкӏагъ, лӏыгъэ зэрахьагъ, апсэ агъэтӏылъыгъ.
9 Ахэм зэкӏэми лӏыгъэ, щэӏагъэ, пытагъэ, шӏулъэгъу ящыкӏагъ.
10 Тихоокеанскэ флотым къулыкъур щихьызэ мэхьэнэ ин зиӏэ пшъэрылъхэр зэригъэцэкӏагъэхэм, лагъымэхэр къыхэгъэщыгъэнхэмкӏэ лӏыгъэ зэрэзэрихьагъэм апае Хэгъэгу зэошхом иорденэу я ӏӏ-рэ степень зиӏэр, Японием зэрэтекӏуагъэхэм фэгъэхьыгъэ медалыр, нэмыкӏхэри къыфагъэшъошагъэх.

Albanian Сorpus

API for Albanian corpus (http://web-corpora.net/AlbanianCorpus/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('alb')
results = corp.search('shqipe', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"shqipe": 100%|██████████| 10/10 [00:04<00:00,  2.02docs/s]

1 Vetë termi huliganizëm e ka prejardhjen nga një mbiemër irlandez «Hooligan » i cili në gjuhën shqipe do të thotë qen, langua ose laro.
2 Në suaza të realitetit shumetnik që e ka Maqedonia, Bajrami thotë se barazimi i gjuhës shqipe me atë maqedonase si gjuhë zyrtare në vend, paraqet elementin kryesor për plotësimin e këtij mozaiku shumetnik që po ndërtohet në vend.
3 Në të parën punohet pa kushte minimale, ndërsa në të dytën - sipas të gjitha standardeve, për shkak se MASH nuk është kursyer asnjëherë që të investojë në shkollën e Lubancës, ku mësimi zhvillohet në gjuhën maqedonase, ndërsa në shkollën e Lubotenit - ku mësimi zhvillohet në gjuhën shqipe, nuk është investuar thuajse asgjë në 50 vitet e fundit, prej vitit 1963 kur edhe u ndërtua shkolla.
4 Edhe për Bogdanin ka pasaktësi kur thotë:«Kryevepra e tij Çeta e profetëve është një traktat i rëndësishëm teologjik e filozofik dhe vepra e parë më e madhe e shkruar në shqip"që mendoj se Bogdani, veprën e quajtur Flanisae prophetarum (Hojet e profetëve), e ka shkruar vetëm në gjuhën shqipe dhe Kongregacioni ka pranuar të botohet me kusht që të përkthehet edhe në italishte, çështja e kalepinit (S. Riza).
5 Më tej thuhet «autorë tashmë në rrjedhat e letërsisë shqipe të sh.
6 Së pari, nëntitulli nuk është i saktë, pse ashtu si është formuluar (Letërsia shqipe) nënkupton mbarë letërsinë shqiptare e mendoj se është dashur të thuhet Letërsia shqiptare në Kosovë, ashtu si edhe jo Gjuhët, po Gjuhët në Kosovë, jo Zejet, po Zejet në Kosovë e tjerë.
7 Autori i nënkapitullit Letërsia shqipe e fillon studimin me Pjetër Budin, Pal Hasit (Palit prej Hasi), Pjetër Bogdanin, Gjon Nikollë Kazazin, për të vazhduar me Tahir Efendi Boshnjakun, Sheh Hilmi Maliqin, Ndue Bytyqin, Shtjefën Gjeçovin e tjerë, ndërsa më poshtë thotë se «fillimet e saj lidhen me shkrimet e para letrare në nismë të viteve’50, që tingëllon si një fillim nga asgjëja », që duket se është në kolizion mendimesh.
8 «Formula për përkthimin e të gjithë këtyre titujve për këtë periudhë është çështje teknike e shtëpive që merren me përkthim », pohon zëvendësministri Neziri, ndërsa tregon se do të jetë MASH ajo që në të ardhmen do të hapë tenderët për përkthimin e të gjithë titujve të mbetur, si në maqedonisht, ashtu edhe në gjuhën shqipe.
9 Sipas banorëve të fshatit Podgorcë, ata deri më 1945 kanë mësuar në gjuhën shqipe dhe mësues kanë patur veteranin e arsimit shqiptar, Tomorr Starovën nga Pogradeci, kurse shkolla ka mbajtur emrin e publicistit nga ky fshat, Iljaz Podgorca.
10 Ky hap për hapjen e paraleleve me mësim në gjuhën shqipe është një zhvillim pozitiv theksojnë banorët që e ndjejnë veten shqiptar në këtë fshat, në drejtim të ruajtjes dhe kultivimin e gjuhës shqipe.

Almaty Corpus of the Kazakh Language

API for Almaty corpus of the Kazakh language (http://web-corpora.net/KazakhCorpus/search/).

Search Parameters

query: str or list([str]):
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('kaz')
results = corp.search('тілі', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"тілі": 100%|██████████| 10/10 [00:01<00:00,  6.49docs/s]

1 Шетел тілі ана тілімен қоса баланың сөйлеу қабілетін және жалпы дамуын ғана жетілдіріп қоймайды, оны өзін қоршаған айналасындағы адамдармен қарым-қатынас мәдениетіне де үйретеді.
2 Ағылшын тілі сабағында тиянақты және сапалы білім беру тәрбие жұмысымен күнделікті бірлікте жүргізілуі тиісті екені күнделікті тәжірибеде дәлелденгені айқын.
3 Ағылшын тілі пәні бойынша білім мазмұнына тақырыптар, қарым – қатынас ситуациялары, мәтіндер, тілдік материалдар; лексикалық, грамматикалық, фонетикалық, практикалық біліктер, сөз әдептері, оқу әрекетінің тиімділігін іске асыратын жалпы оқу білік дағдылары жатады.
4 Халықаралық қатынастар мен бизнес, туризм,әлемдік экономика мен саясат, білім және ғылым саласы мен озықтехнология, құқық пен мәдениет салаларының халықаралық аренадағы негізгі қолданыс тілі ағылшын тілі болып отыр.
5 Қазіргі таңда шет тілі ретінде ағылшын тілін оқытуды жаңа сатыға көтеру отандық педагогикадағы іргелі міндеттердің біріне айналып отыр.Өйткені, елімізде Қазақстан Республикасының Президенті Н Ә Назарбаевтың бастамасымен «Үштұғырлы тіл » мәдени жобасын дамыту басымдыққа айналып, соның ішінде жаһандану жағдайында әлемдік интеграцияға кірігу тілі ретінде ағылшын тіліне мән берілуде.
6 Қазіргі таңда шет тілі ретінде ағылшын тілін оқытуды жаңа сатыға көтеру отандық педагогикадағы іргелі міндеттердің біріне айналып отыр.Өйткені, елімізде Қазақстан Республикасының Президенті Н Ә Назарбаевтың бастамасымен «Үштұғырлы тіл » мәдени жобасын дамыту басымдыққа айналып, соның ішінде жаһандану жағдайында әлемдік интеграцияға кірігу тілі ретінде ағылшын тіліне мән берілуде.
7 Халықаралық қатынастар мен бизнес, туризм,әлемдік экономика мен саясат, білім және ғылым саласы мен озықтехнология, құқық пен мәдениет салаларының халықаралық аренадағы негізгі қолданыс тілі ағылшын тілі болып отыр.
8 Шет тілдердің арасында ағылшын тілі баяғыда-ақ алғашқы орынды иеленді.
9 Кез-келген мектепті алмайык, тіпті ауылдық жерлердегі мекетептерде де ағылшын тілі қазақ балаларының ана тілінде жүргізілген жок.
10 Ағылшын тілін қазақ тілі арқылы оқып-тану өте сирек кездесетін жайт болатын.

Bamana Corpus

API for Bamana corpus (http://maslinsky.spb.ru/bonito/index.html).

Search Parameters

query: str or list([str])
query or queries (currently only exact search by word or phrase is available)
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
whether to collect grammatical tags for target word or not (False by default, available only for corbama-net-non-tonal subcorpus)
subcorpus: str, default ‘corbama-net-non-tonal’
subcorpus. Available options:
  • ‘corbama-net-non-tonal’
  • ‘corbama-net-tonal’
  • ‘corbama-brut’
  • ‘corbama-ud’

Example

corp = lingcorpora.Corpus('bam')
results = corp.search('kan', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"kan": 100%|██████████| 10/10 [00:00<00:00, 14.99docs/s]

1 dennin in seginna dugu kɔnɔ ka segin dɔnkili in kan a ba ye , a yɛlɛmana ka kɛ warabilen ye ka taa kungo
2 kɔni tɛ dɔnkili in da dɛ ! jula k' a ka yɛlɛn fali kan ka dɔnkili da , k' a tɛna yɛlɛma . julaw ko , ko fosi
3 yɛlɛma . musokɔrɔba ye dɔnkili in da k' a to fali kan . a tilala dɔrɔn , a yɛlɛmana ka kɛ warabilen ye . a
4 a kɛ , don dɔ la , surukuba yaalatɔ bɔra tonkun in kan , kungo kɔnɔ . a kabakoyara : « Ɛ , tonkun yɛrɛ ni
5 y' o fɔ yɔrɔ min na , fɛn dɔ y' a ta k' a pɛrɛn a kɔ kan . surukuba foori ka wuli , k' a ɲɛkili filaw bɔ u
6 la . u y' u gɛrɛ tonkun in na . sama ɲɛ datɔ bonbonsi kan , a y' i kanto : « Ɛ , tonkun yɛrɛ ni bonbonsi , a da n
7 a y' o bɔ a da la yɔrɔ min , fɛn dɔ y' a ta k' a pɛrɛn a kɔ kan . biɲɛ dow turu kojugu a la , a dɔw bɔra a fan dɔ fɛ .
8 . Ala tora a ka dɔnni na ka kɔngɔ ben dugu nin kan . kɔngɔba . ka dugu nin ɲɛni , ka dugumɔgɔw fasa ,
9 sara . Ala fana y' o mɔgɔ sugu dan ka bila dugukolo kan . hali n' a ye fɛn sɔrɔ , hali n' a ye nafolo d' a ma , a
10  nsiirin , nsiirin . n y' a bila den dɔ le kan . den nin ye sira deli a facɛ fɛ , k' a b' a fɛ ka taga

Buryat Сorpus

API for Buryat corpus (http://web-corpora.net/BuryatCorpus/search/).

Search Parameters

query: str or list([str]):
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('bua')
results = corp.search('хэлэн', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"хэлэн": 100%|██████████| 10/10 [00:02<00:00,  4.14docs/s]

1 Фатэр гэжэ үгэ немец хэлэн дээрэ эсэгэ гэһэн үгэ юм, — гэжэ Насаг эсэгэдээ юундэшьеб дураа гутаад, уруу дуруу зогсоһон басагандаа ойлгуулаад, хүхюунээр энеэбхилбэ.— Немец хүбүүн!
2 Али эжынгээ угаажа үгэхэдэнь, хатаажа байна гүт? — гэжэ магтаһан болиһон хоёрой хоорондо хэлэн асууба.— Эжымни хүндөөр үбшэлөөд, хэбтэридээ орошонхой.
3 Мнацаканян окоп соогуур гүйн, унтажа байһан гурбанай хамсыһаа ябууд татажа:— Нүхэр лейтенант, танкнууд! — гэжэ мэгдүүгээр хэлэн һэрюулбэ.
4 Младша сержант Насаг Бадараев, — гэжэ элидхэһэнэй һүүлдэ, аалиханаар хэлэн нэмэбэ. — Сэрэгшэд Абдулаев, Макаров байлдаанда алдалан унаа.
5 Саад, яслида гансал ород хэлэн дээрэ хөөрэлдэнэ ха юм.
6 Олоһон мүнгөөрөө хойто жэл Москва ошожо ерэхэбди, — гэжэ Сэпэлмаа һайрхуугаар хэлэн, шэмээгүй байдал таһалба.— Тиигэ, тиигэ.
7 Насаг тэрээнһээ телеграммаяа абамсаараа, ямар нэгэ юумэ һанажа, шара нюдөөрөө ошо сасаруулан, энэрхы уриханаар энеэбхилээд:— Хүбүүн,«эсэгэ » гэжэ үгэ немец хэлэн дээрэ «Фатэр » гэнэ гүш? — гэжэ асууба.— Тиимэ...
8 Амидыгаар баригты, — гэжэ немецкэ офицер өөрынгөө хэлэн дээрэ хашхаран байжа, солдадуудаа захирна.— Намайе амидыгаар барижа шадахагүйт.
9 Юундэб гэхэдэ, Зэбзэмаагай хэлэн өөрынгөө хүзүү орёогоогүй, харин хэнтэг зан гаргаһан Балдан-Доржын хүзүү орёоһон болоно бшуу.
10 Һанан хэлэн дуулахадам,

Chinese Corpus

API for Chinese corpus (http://ccl.pku.edu.cn:8080/ccl_corpus/).

Search Parameters

query: str or list([str])
query or queries (currently only exact search by word or phrase is available)
n_results: int, default 100
number of results wanted
subcorpus: str, default ‘xiandai’

subcorpus. Available options:

  • ‘xiandai’ (modern Chinese)
  • ‘dugai’ (ancient Chinese)
n_left: int, default 30
context lenght (in symbols)
n_right: int, default 30
context lenght (in symbols)

Example

corp = lingcorpora.Corpus('zho')
results = corp.search('语', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"语": 100%|██████████| 10/10 [00:01<00:00,  6.77docs/s]

1 ...是学校教学的基本组织形式;某些教学内容,特别是自然科学知识、语言文字知识等,成为各历史时期的共同内容;一些反映教育规律的教育...
2 ...的,必须先教他们识字,不识字就不能有政治,不识字只能有流言蜚语、传闻偏见,而没有政治。"因为政治民主化的最主要表现之一,是人...
3 ...常有三种:(1)物质载体,如工具、建筑等;(2)精神载体,如语言、文字、意识形态等;(3)人的戴体,如个人所拥有的知识、道德...
4 ...程。就教育而言,首先是教育者将寓于自己主体内的文化外化为教育语言、文字形式的材料等,教育过程才能进行。没有这种外化,教育过程...
5 ...一个首要条件,即首先要求人们对文化的认同和理解,无论是见之于语言文字的或是其它象征符号的文化,只有当它们成为共享文化时,才能...
6 ...如见之于文字的文化,无法向一个文盲传播;将外国文化向不懂该国语言或不了解该文化背景的人传播,就会发生困难。所以,教育者首先需...
7 ...就是指某种心理机能发展最重要的刻印时期。如2到3岁是儿童口头语言发展的关键期。实验证明,小学四年级是童年思维发展的质变期,初...
8 ...的生理和心理也存在着差异。心理学研究表明,在婴儿期,孪生子的语言和认识能力就有了差异。
9 ...直立行走,而是像狼一样四肢落地并养成了狼的生活习性,没有人的语言和思维,没有人的情感和兴趣。由此可知,人的身心的最终发展方向...
10 ...际交往关系和利益交往关系,使人在交往中逐步掌握作为交往工具的语言,把握思想和行为规范;正是社会意识形态,为个体的心理发展提供...

Danish Corpus

API for Danish corpus (https://ordnet.dk/korpusdk_en/concordance).

Search Parameters

query: str or list([str]):
query or queries
n_results: int, default 100
number of results wanted (100 by default)

Example

corp = lingcorpora.Corpus('dan')
results = corp.search('dansk', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"dansk": 100%|██████████| 10/10 [00:01<00:00,  9.08docs/s]

1 om hvilke juridiske modeller, der overvejes for at få en dansk særordning med EF på plads. Forinden besøger den britiske premierminister,
2 der også tilknyttes det amibtiøse fremstød for dansk film og højskolekultur. TV 2-medarbejderen, journalist Inger Marie Vennize forlader
3 skriver Klaus Rifbjerg et sted i " Karakterbogen ". Heri har dansk litteraturs Store Bastian både ret og uret. Hans nye bog
4 lønstigninger er de laveste i næsten 40 år. Det viser Dansk Arbejdsgiverforenings lønindikator for juli, august og september. På et år
5 de næste dage, som kan blive uhyre dramatiske dage i dansk politik, skal løsningen forhandles på plads både udadtil og indadtil.
6 der godkendes på et EF-topmøde og derefter gennemgår en dansk folkeafstemning, vil aldrig blive tilsidesat til fordel for andre traktat-bestemmelser,
7 og om at uafhængige juridiske eksperter skal vurdere en dansk aftale. Baggrunden er forlydender om en dansk løsning, der ikke
8 yderst populær vinder af sæsonens sidste klassiske dyst- Dansk Opdrætningsløb på Charlottenlund. Selv om travtalentet løb ud i fejl
9 have udgivet alle Carl Barks' Disney-serier på dansk . Seneste skud på stammen er " Anders And slår alt ". Det
10 der døde i 1964, i dobbeltversion, som det hun var: dansk teaters Madame. JEG citerer lige Mette Winge fra det udmærket

Eastern Armenian Corpus

API for Eastern Armenian corpus (http://eanc.net).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('arm')
results = corp.search('նարդի', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"նարդի": 100%|██████████| 10/10 [00:08<00:00,  1.15docs/s]

1 Միսս Ջեյնին խելքահան է արել օձի ճուտը, — մռլտաց Մուրադն ու փշրված վերադարձավ նարդի խաղացողների մոտ:
2 Ծառի տակ փռված կարպետի վրա Սողոն ու Յապոնը նարդի էին խաղում:
3 Էլ ո՞չ նարդի չխկացընել,
4 Սիրում էր նաև թավլի, այսինքն նարդի խաղալ հորս հետ, ինձ հետ:
5 Ժանդարմը գլխի շարժումով դռների առջև նստած տղամարդկանց ցույց տվեց, որ մեքենայական շարժումներով թզբեհ էին քաշում կամ նարդի խաղում:
6 Կառքից իջնելով մոտեցան տներից մեկի անշուք մուտքին, որի առջև երկու հոգի նստած նարդի էին գցում և մերթ ընդ մերթ սուրճը փռթացնում:
7 Նոր եկողներից մի քանիսն էլ նստելով մի փոքր հեռու՝ բերել տվին նարդի ու տամա և սկսեցին խաղալ:
8 Կարդում էր առավելագույնը հինգ-վեց միապաղաղ նամակներ, գցում տոպրակի մեջ և գնում պարապությունից հորանջող ոստիկանների հետ սուրճ խմելու և նարդի խաղալու:
9 — Այո, այո, «Հաղթանակ», և սա օրեցօր կզորանա, և մենք կազատագրվենք այս անբան խոսողներից, նարդի խաղացողներից, ֆուտբոլի շուրջը ժամերով վիճողներից:
10 — Հայրիկը բակում է, նարդի է խաղում, ուզո՞ւմ, եք՝ կանչեմ:

Estonian Corpus

API for Estonian corpus (http://www.cl.ut.ee/korpused/kasutajaliides/index.php).

Search Parameters

query: str or list([str])
query or queries (currently only exact search by word is available)
n_results: int, default 100
number of results wanted
subcorpus: str
subcorpus. Available options: see below values and their meanings (‘1990_ajalehed_26_08_04’ by default). To use several subcorpora, list them with semicolon, e.g. ‘1990_ajalehed_26_08_04;EE_10_09_2004’.

Available Subcorpora

  • 1990_ajalehed_26_08_04: 1990d - ajakirjandus [865 tuhat]
  • EE_10_09_2004: Eesti Ekspress 1996-2001 [7,2 miljonit]
  • Maaleht: Maaleht 2001-2004 [5,3 miljonit]
  • Postimees_1995: Postimees 1995
  • Postimees_1996: Postimees 1996
  • Postimees_1997: Postimees 1997
  • Postimees_1998: Postimees 1998
  • Postimees_1999: Postimees 1999
  • Postimees_2000: Postimees 2000
  • Postimees_Extra: Postimees Extra
  • epl_1995: Eesti Päevaleht 1995
  • epl_1996: Eesti Päevaleht 1996
  • epl_1997: Eesti Päevaleht 1997
  • epl_1998: Eesti Päevaleht 1998
  • epl_1999: Eesti Päevaleht 1999
  • epl_2000: Eesti Päevaleht 2000
  • epl_2001: Eesti Päevaleht 2001
  • epl_2002: Eesti Päevaleht 2002
  • epl_2003: Eesti Päevaleht 2003
  • epl_2004: Eesti Päevaleht 2004
  • epl_2005: Eesti Päevaleht 2005
  • epl_2006: Eesti Päevaleht 2006
  • epl_2007: Eesti Päevaleht 2007
  • sloleht_1997: SLÕhtuleht 1997
  • sloleht_1998: SLÕhtuleht 1998
  • sloleht_1999: SLÕhtuleht 1999
  • sloleht_2000: SLÕhtuleht 2000
  • sloleht_2001: SLÕhtuleht 2001
  • sloleht_2002: SLÕhtuleht 2002
  • sloleht_2003: SLÕhtuleht 2003
  • sloleht_2004: SLÕhtuleht 2004
  • sloleht_2005: SLÕhtuleht 2005
  • sloleht_2006: SLÕhtuleht 2006
  • sloleht_2007: SLÕhtuleht 2007
  • valga: Ajaleht Valgamaalane [2,5 miljonit]
  • le: Ajaleht Lääne Elu [1,8 miljonit]
  • Kroonika: Seltskonnaajakiri Kroonika [960 tuhat]
  • 1980_aja: 1980d - ajakirjandus (baas) [175 tuhat]
  • 1970_aja: 1970d - ajakirjandus [168 tuhat]
  • 1960_aja: 1960d - ajakirjandus [201 tuhat]
  • 1950_aja: 1950d - ajakirjandus [242 tuhat]
  • 1930_aja: 1930d - ajakirjandus [117 tuhat]
  • 1910_aja: 1910d - ajakirjandus [182 tuhat]
  • 1900_aja: 1900d - ajakirjandus [171 tuhat]
  • 1890_aja: 1890d - ajakirjandus [193 tuhat]
  • 1990_ilu_26_08_04: 1990d - ilukirjandus (katkendid) [602 tuhat]
  • segailu_5_10_2008: 1990d - ilukirjandus [5,6 miljonit]
  • 1980_ilu: 1980d - ilukirjandus (baas) [250 tuhat]
  • 1970_ilu: 1970d - ilukirjandus [257 tuhat]
  • 1960_ilu: 1960d - ilukirjandus [132 tuhat]
  • 1950_ilu: 1950d - ilukirjandus [66 tuhat]
  • 1930_ilu: 1930d - ilukirjandus [252 tuhat]
  • 1910_ilu: 1910d - ilukirjandus [247 tuhat]
  • 1900_ilu: 1900d - ilukirjandus [64 tuhat]
  • 1890_ilu: 1890d - ilukirjandus [155 tuhat]
  • 1980_tea: 1980d - teadustekst [160 tuhat]
  • horisont: Ajakiri Horisont 1996-2003 [260 tuhat]
  • arvutitehnika: Ajakiri Arvutitehnika ja Andmetöötlus 1999-2005 [625 tuhat]
  • doktor: Doktoritööd [2,3 miljonit]
  • Eesti_Arst_2002: Ajakiri Eesti Arst 2002 [249 tuhat]
  • Eesti_Arst_2003: Ajakiri Eesti Arst 2003 [244 tuhat]
  • Eesti_Arst_2004: Ajakiri Eesti Arst 2004 [217 tuhat]
  • agraar: Agraarteadus 2001-2006 [298 tuhat]
  • jututoad: Jututoad [7 miljonit]
  • uudisgrupid: Uudisgrupid [8 miljonit]
  • foorumid: Foorumid [5 miljonit]
  • kommentaarid: Kommentaarid [2 miljonit]
  • riigikogu: Riigikogu stenogrammid 1995 - 2001 [13 miljonit]
  • 1980_muu: 1980d - muud tekstid [415 tuhat]
  • teadusartiklid: Mitmesugused Teadusartiklid 1995-2007 [1,3 miljonit]
  • akp: Asutawa Kogu protokollid [2 miljonit]

Example

corp = lingcorpora.Corpus('est')
results = corp.search('keel', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"keel": 100%|██████████| 10/10 [00:01<00:00,  5.01docs/s]

1 Käesoleva puhul pole ehk keel suuremaks takistuseks neile Eestis, kes iga päev Soome TV-d jälgivad.
2 Moskvas ka eesti keel
3 Kõlas ainult ukraina keel , sõna- ja muusikaprogrammiga esinesid banduristid Alla Kutsevitš ja Ostap Stahhiv Lvovist, meeleolukat muusikat esitas Rovno muusikakeskkooli folkloorne instrumentaalansambel Drevljane.
4 Noortele psüühiliselt lähedaseks peaks tükki tegema ka tema keel .
5 Pusapratipundara keel aga jättis kauni ja stiilse mulje.
6 Inglise keel oli mu hobi, meenutab Sirbis ja Vasaras kuus aastat tagasi juubilar Oleg Mutt.
7 Kellel 4 ja 5, teevad matemaatika suulise eksami; 4) õigusteaduse eriala jaguneb kohtu- ja majandustsükliks (kohturühma mõnedele kohtadele on teatud eelised neil, kellel võrdselt hästi selge eesti ja ka vene keel) , eksamid: kirjand ja NSVL ajalugu.
8 Heitsin pikali, aga ometi sain pihta, kild purustas mõlemad lõualuud, keel sai vigastada.
9 Kõlas eesti , vene , leedu , läti , soome ja saksa keel .
10 Rohkesti tehakse keeleoskuse omandamiseks ( eesti keel venelastele , vene keel eestlastele , inglise keel kõigile ) .

German Corpus

API for German corpus (https://www.dwds.de).

Search Parameters

query: str or list([str])
query or queries. By default, inflection will be included (unlike in the case of the other corpora). To perform an exact search add ‘@’ symbol before the query (e.g. @gut’). By default multi-word queries will not work. To perform a multi-word query, put it between double quotation marks (e.g. ‘“guten tag”’). The full list of options is available here (in German).
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False) (True by default)
subcorpus: str

subcorpus. The description for the given options are here (in German). Available options:

  • ‘kern’ (by default)
  • ‘tagesspiegel’
  • ‘zeit’
  • ‘public’
  • ‘blogs’
  • ‘dingler’
  • ‘untertitel’
  • ‘spk’
  • ‘bz’
  • ‘dta’
  • ‘korpus21’

Example

corp = lingcorpora.Corpus('deu')
results = corp.search('gut', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"gut": 100%|██████████| 10/10 [00:00<00:00, 17.48docs/s]

1 Zwar ist er in den letzten Tagen von ungarischer und czechischer Seite hart angegriffen worden, aber neben den Ugron , Gregr und Genossen gibt es in der habsburgischen Monarchie noch vernünftige Leute genug, die recht gut wissen, was sie am Dreibund haben und die sich auch sorgfältig davor hüten, durch Uebertreibung nationaler Forderungen den Bestand der Monarchie zu gefährden.
2 In den sieben laugen Jahren schwerster Knechtschaft lehrte Gott unser Volk sich auf sich selbst besinnen, und unter dem Druck des Fußes eines übermüthigen Eroberers gebar unser Volk aus sich heraus den hehrsten Gedanken, daß es die höchste Ehre sei, im Waffendienste seinem Vaterlande Gut und Blut zu weihen:
3 In den sieben langen Jahren schwerster Knechtschaft lehrte Gott unser Volk sich auf sich selbst besinnen und unter dem Drucke eines übermüthigen Eroberers gebar unser Volk aus sich heraus den hehrsten Gedanken, daß es die höchste Ehre sei, im Waffendienste seinem Vaterlande Gut und Blut zu weihen, die allgemeine Dienstpflicht . Mein Urgroßvater gab ihr Form und Leben und neuer Lorbeer krönte die neuerstandene Armee und ihre jungen Fahnen.
4 In den sieben langen Jahren schwerster Knechtschaft lehrte Gott unser Volk sich auf sich selbst besinnen, und unter dem Druck des Fußes eines übermütigen Eroberers gebar unser Volk aus sich heraus den hehrsten Gedanken, daß es die höchste Ehre sei, im Waffendienste seinem Vaterlande Gut und Blut zu weihen: die allgemeine Dienstpflicht . Mein Urgroßvater gab ihr Form und Leben, und neuer Lorber krönte die neu erstandene Armee und ihre jungen Fahnen.
5 Wie die "Köln. Ztg." aus London erfährt, beunruhigt man sich dort, obschon neuere Nachrichten aus Ladysmith von hinreichendem Proviant für mindestens sechs Wochen melden, neuerdings in gewöhnlich gut unterrichteten Kreisen wieder lebhafter um das Schicksal der eingeschlossenen Garnison.
6 Man wird gut thun, hinter diese privaten englischen Berichte ein Fragezeichen zu setzen.
7 Der Rittmeister Montmorency von den 21. Lancers stieß mit einer überlegenen feindlichen Streitmacht, die Artillerie mit sich führte, zusammen und wurde im Laufe des Sonnabends gezwungen, sich nach Dordrecht zurückzuziehen, was in guter Ordnung geschah.
8 Insbesondere sollen die Parlamente, die im Begriff stehen, neue Marinerüstungen zu beraten, sich von dem Gedanken erleuchten lassen, daß es einen besseren Weg giebt, das Vaterland zu schützen und zugleich der Menschheit ewige Dienste zu leisten. -
9 Diejenigen, die ihn tadelten, seine keine guten Katholiken und seien vom Protestantismus angesteckt.
10 Die gute einheimische Ernte in Verbindung mit den reichlichen Vorräthen Amerikas und der Aussicht auf große Erträge in Argentinien und Australien lähmten jeden Anlauf zu einer Besserung.

Georgian Monolingual Corpus

API for Georgian monolingual corpus (http://corpora.iliauni.edu.ge).

Search Parameters

query: str or list([str])
query or queries (currently only exact search by one word is available)
n_results: int, default 100
number of results wanted

Example

corp = lingcorpora.Corpus('kat')
results = corp.search('ენა', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"ენა": 100%|██████████| 10/10 [00:01<00:00,  6.83docs/s]

1 სწორედ ქართული ენა იქნება შენი დედაენა.
2 მე მესმის ტკბილი ქართული ენა .
3 ეს ენა , როგორც ანკარა მთის წყარო, იღვრება ჩემში[...]
4 მუცლით მეზღაპრეს გაუხმეს ენა .
5 მაგრამ ვინ გაიგებს, ვინ იცის მისი ენა .
6 [...]ნაღამ დაიყვირა კობამ, მაგრამ გახევებული ენა ვერ დაძრა, მობრუნდა და ბურანში აედევნა ჯ[...]
7 [...]ნად მისული მღვდლის სიტყვები იქნებოდა და ენა გაუხევდა, ასპიროზამ კი მაჯაში ჩაავლო დაკ[...]
8 [...]ა ჩამცხრალ ბონდოს, მერე ძლივს მოაბრუნდა ენა და ჩურჩულით თქვა: „მართლა შენი ბრალია?“ [...]
9 – მეც ჭორიკანასავით გადმოვაგდე ენა ...
10 [...]იფიქრე, თუ ფრანგულს ვისწავლით, საიდუმლო ენა გვექნება, ვერც ვირენა და ვერც ვერავინ ვე[...]

Hindi Corpus

API for Hindi corpus (http://www.cfilt.iitb.ac.in/~corpus/hindi/find.php).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
start: int, default 0
index of the first query appearance to be shown (0 by default)

Example

corp = lingcorpora.Corpus('hin')
results = corp.search('कुत्ते', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"कुत्ते": 100%|██████████| 10/10 [00:10<00:00,  1.07s/docs]

1  फिर उससे इस वाइरस का टीका तैयार किया. इस टीके को आपने एक स्वस्थ  कुत्ते  की देह में पहुँचाया.
2  उस बच्चे को दो दिन पहले एक पागल  कुत्ते  ने काटा था. पागल
3   कुत्ते  दिखाई दिये .पालतू भी नहीं . बिल्ली और पक्षी भी नहीं .
4  किसी दूसरे प्राणों के रहते भूत नहीं आता है . हम लोगों के घर मेए दो महीने का एक  कुत्ते  का बच्चा था .
5   कुत्ते  का बच्चा गोद में ही सो गया . पढ़ते-पढ़ते यह अन्दाज ही नहीं रहा कि कब सबेरा हो गया .
6   कुत्ते  का बच्चा मिल नहीं रहा है . समुचे मकान को रत्ती-रत्ती खोज कर सभी परेशान हो गये हैं ." बच्चा इतना बेखबर सो रहा था,
7 रहीं सूरज अपने घोड़ोंपर चाबुक बरसाता रहा  कुत्ते  भूँकते रहे मशीनें
8  चुप क्यों हो गए ?" "सुनाते हैं, सुनाते हैं ." सर्कस ने एक नजर मेरी ओर देखा और जैसे मेरी मंशा ताड़कर बोला, "हमारे लिए  कुत्ते वाला फूल कौन लाएगा ?" "हम लायेंगें !
9   कुत्ते  पर सवारी गांठने वाले भैरव, को देवता रूप में ग्रहण किया तब मूषक वाहन विघ्नेश गणेश को भी ग्रहण कर उन्हें विघ्नेश बना डाला .
10  बड़े साहब के घर कितने  कुत्ते  हैं. . . जानकी वकील के घर पूजा में कितनी बलि होती है.

JuKuu: Chinese-English Subcorpus

API for Chinese-English subcorpus of JuKuu corpus (http://www.jukuu.com/)

Search Parameters

query: str or list([str])
query or queries (currently only exact search by word or phrase is available)
n_results: int, default 100
number of results wanted (100 by default, also 100 is the maximum possible amount for this corpus)
kwic: bool, default True
kwic format (True) or a sentence (False)
query_language: str
language of the ‘query’

Example

corp = lingcorpora.Corpus('zho_eng')
results = corp.search('语', n_results=10, query_language ='zho')
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"语": 100%|██████████| 10/10 [00:01<00:00,  9.00docs/s]

1  在现代图形用户界面中,这些原语包括指向、单击和拖动。
2  图13-3  图形用户界面易于使用的主要原因在于推行有限的交互词汇,由指向、单击和拖动这些极少量的原语组成复杂的习惯用法。
3  ((委婉语.古))妊娠,怀孕
4  避免用缩略语,如果必须,要用标准缩略语。
5  避免用缩略语,如果必须,要用标准缩略语。
6  "海底电报"一词是混合语,半为拉丁语,半为希腊语。
7  "海底电报"一词是混合语,半为拉丁语,半为希腊语。
8  "海底电报"一词是混合语,半为拉丁语,半为希腊语。
9  学习外国语切莫望文生义。
10  书面语比口语往往更加一致。

Kalmyk Corpus

API for Kalmyk corpus (http://web-corpora.net/KalmykCorpus/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False) (True by default)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('kal')
results = corp.search('келн', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"келн": 100%|██████████| 10/10 [00:01<00:00,  6.95docs/s]

1 Ашлад келхд, мана таңһчд «АПК-н делгрлт» гидг келн-улсин төсв күцәлһнә йовудыг мана бәәрн һардачнр болн орн-нутгин һардвр чигн өөдәнәр үнлснь маднд омг үүдәҗ, урмд өгчәхнь лавта.
2 Келхд, энүнлә хамдан Цугәрәсән марафонд орлцсн Троицк гимназин сурһульч Санҗ Лиджигоряев таңһчин марһанд 1-ч орм, МОУ «СШ№ 4- келн-улсин гимназин» сурһульч Маргарита Ен 2-ч орм эзләд, Адьянас түрүлв.
3 Һурвн долан хонгин эргцд чинртә марһан болҗах Элст балһсна, хальмг келн улсин тускар цуг тивмүдт келгдх.
4 - «АПК-н делгрлт» гидг келн-улсин төсв селәнә эдл-ахун халхар көдлҗәх баһ наста специалистнриг гер-бүүрәр тетклһнә төр бас босхҗаналм.
5 Элстүр ирхләнь Хальмг Таңһчин Толһач сәәхн час болн «Хальмг келн-әмтнә туульс» гидг дегтр белглв.
6 Өдгә цагт теегт мал идшлүлҗ өсклһнә, һаха, шову, заһс өсклһнә таңһчин шишлң программс, АПК-н делгрлт» гидг келн-улсин һоллгч төсв бәәдл-җирһлд күцәмҗтәһәр тохрагдҗана.
7 Хамгин түрүнд мал өсклһнә делгрлтиг, өдгә цагин некврлә ирлцҗәх селәнә эдл-ахун баһ бизнесиг, дөңцл эдл-ахусиг болн фермсиг дөңнлһн келн-улсин төсвин һол күслнь болҗана.
8 Мана сурһульчнрла хамдан йовсн МОУ «СШ№ 4- келн-улсин гимназин» багш Светлана Андреевна Цебекован келсәр, мана күүкд йир сәәнәр медрлән үзүлв.
9 Путина зааврар сурһуль-эрдм келн-улсин государственн төсвд орв.
10 Хамгин түрүн нарт делкән чемпиона нер зүүҗәх шатрчнрла, ФИДЕ-н ханьд орҗах келн-улсин федерацсла күүндвр кегдәд нег хәләц дөң олв.

Maninka Corpus

API for Maninka corpus (http://maslinsky.spb.ru/emk/run.cgi/first_form).

Search Parameters

query: str or List([str])
query or queries (currently only exact search by word or phrase is available).
n_results: int, default 100
number of results wanted.
kwic: bool, default True
kwic format (True) or a sentence (False).
subcorpus: str, default ‘cormani-brut-lat’
subcorpus. Available options:
  • ‘cormani-brut-lat’
  • ‘corbama-brut-nko’
writing_system: str

writing system for examples. Available options:

  • ‘nko’,
  • ‘latin’.

Bug: only ‘latin’ for ‘corbama-brut-nko’ subcorpus.

Example

corp = lingcorpora.Corpus('emk')
results = corp.search('tuma bɛɛ', n_results=10, writing_system='latin', kwic=False)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"tuma bɛɛ": 100%|██████████| 10/10 [00:01<00:00,  9.62docs/s]

1 14 alu tɛdɛ alu ladɛla alla tara kanma tuma bɛɛ .
2 ‹ n ka faama ye n ɲɛ tuma bɛɛ .
3 alu kan ko : « cɛ nin ye kuma juu fɔla yɔrɔ saniman nin ma tuma bɛɛ , ka kuma juu fɔ kela musa la sariya fanan ma .
4 1 wo tuma , sɔli tɛdɛ faama isa la karandennu la ɲanamaya masilanna tuma bɛɛ .
5 moso wo tɛdɛ koɲuma kɛla tuma bɛɛ ka fantannu dɛmɛn .
6 a tɛdɛ yahudiya fantannu sɔla kosɛbɛ , ka alla tara tuma bɛɛ .
7 17 kɔnin a tɛdɛ a jɛdɛ yidakala alu la tuma bɛɛ ala kewaliɲumalu fɛ .
8 16 wo le dɔ , n ye n dɔjala tuma bɛɛ sa n kɔnɔgbɛyanɛn di to .
9 wo le dɔ , a tɛdɛ pɔli kilila tuma bɛɛ ka bado kɛ a fɛ .
10 29 n ye a fɛ le jusu wo ɲɔɔn ye kɛ alu bolo tuma bɛɛ ka silan n ɲɛ ka nna jamarililu bɛɛ latelen , sa alu ni alu kɔmɔɔlu bɛɛ di hɛrɛ sɔdɔn kadawu .

Mongolian Corpus

API for Mongolian corpus (http://web-corpora.net/MongolianCorpus/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('mon')
results = corp.search('гээд', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"гээд": 100%|██████████| 10/10 [00:00<00:00, 89.05docs/s]

1 .Гэлээ гээд өөр орох оронгүй дөч хүрч яваа Дагва жаргаж чадсангүй.
2 , - Би ч азтай яваа юм байна гээд муухан инээмсэглэх аядав.
3 ?Миний яаж шаналж,махаа идэж явсныг чи даанч мэдэхгүй л дээ гээд Дэнсмаагийн хоолой зангирч,нүүрээ дарав.
4 . - Өө нээрэн,за алив баяр хүргэе гээд Хорлоог түүн тийш эргэхэд Мөнхцэцэг босч очин баруун хацраа өгч үнсүүлээд буцан ирж суудалдаа суун,
5 .Гээд сүргийн эх тэр хөгшин нугарсангүй.
6 - Хүү минь овоо болж билээ гээд Дагва санаа алдав.
7 .Хариуд нь би юм дуугаралгүй байж чадсан боловч толгой маань донжгос гээд дохичихдог байгаа.
8 .Бага дээр нь дарж ав гээд эмийн мөнгө өгсөн л дөө.
9 . - Хандивлачихсан гээд учраа хэлбэл ухаан алдаад унаад өглөө.
10 .Нийлчих байх гээд мордсон

Modern Greek Corpus

API for Modern Greek corpus (http://web-corpora.net/GreekCorpus/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('grk')
results = corp.search('γλώσσα', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"γλώσσα": 100%|██████████| 10/10 [00:03<00:00,  2.95docs/s]

1 Τέτοια βρισίδια του Αγαμέμνονα του πρωτοστρατολάτηξεφώνιζε ο Θερσίτης, μα ο θεϊκός πετάχτηκε Οδυσσέαςμπροστά του και στραβοκοιτώντας τον αψιά τον αποπηρε:« Θερσίτη εσύ γλωσσά, ατσαλόστομε!
2 «Θέλουμε και εξειδικευμένους και καταρτισμένους επαγγελματίες-τεχνίτες που να μιλούν τη γλωσσά μας, να έχουν μαθηματική αντίληψη, ψηφιακή ικανότητα, πρωτοβουλία, πολιτισμική συνείδηση και να αναπτύσσουν την ιδιότητα του πολίτη.
3 «Τηλέμαχε, γλωσσά κι απόκοτε, τι λόγια αυτά που κρένεις;
4 «Τηλέμαχε γλωσσά κι απόκοτε, τι λόγια αυτά που κρένεις;να μας ντροπιάσεις θες κι απάνω μας να ρίξεις κατηγόρια;
5 «Τηλέμαχε γλωσσά κι απόκοτε, μη συλλογάσαι τώραπια άλλο κακό βαθιά στα φρένα σου, μήτε έργο μήτε λόγο’τη χάρη κάνε μου κι ως άλλοτε μονάχα τρώγε, πίνε ᾿κι οι Αργίτες όλα αυτά που γύρεψες — καράβι, λαμνοκόπουςξεδιαλεχτούς — θα σ'τα τελέψουνε, κι έτσι γοργά θα φτάσειςστην άγια Πύλο, για τον κύρη σου τον ξακουστό να μάθεις.»
6 ΔΕΥΤΕΡΑ 19/5-ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ
7 ΣΚΛΗΡΗ ΓΛΩΣΣΑ ΣΕ ΓΕΩΡΓΙΑ, ΟΥΚΡΑΝΙΑ
8 ΣΤΗ ΓΛΩΣΣΑ ΤΗΣ ΕΠΟΧΗΣ
9 ΤΡΙΤΗ 20/5-ΝΕΟΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ
10 Η ΠΑΓΚΟΣΜΙΑ «ΓΛΩΣΣΑ » ΤΟΥ ΧΡΗΜΑΤΟΣ

Modern Yiddish Corpus

API for Modern Yiddish corpus (http://web-corpora.net/YNC/search/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('yid')
results = corp.search('zikh', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text, sep='

‘)

"zikh": 100%|██████████| 10/10 [00:01<00:00,  5.17docs/s]

1
דערנאָך הייבט ער זיך שטיל אויף און גייהט ווייטער מיט אַ שמייכעלע צוריק אין אַלקיריל אַריין; זי שטעלט זיך אויף, שטייהט אַ וויילע און קוקט איהם נאָך,׳ ביז ער פערמאַכט אונטער זיך דאָס טהירעל.
2
למך׳ל זיצט אין אַלקיריל ביי זיך.
3
אונטער׳ן ווענטיל שושקעט מען און מען סוד׳עט זיך; און אַ פערשטיקט געלעכטער הערט זיך, און די זעלנערקע האַלט עפיס איין דעם עולם: “מאָרגען”, זאָגט זי אַלץ־אין־איינעם, “מאָרגען!
4
ווייסט גנענדיל פין דעם אַלעס, זי מאַכט זיך יאָ, צי זי מאַכט זיך נישט דערפין, שווייגען שווייגט זי...
5
שלענדערט זיך די גרויסע גענענדיל איבער׳ן מאַרק, איבער די גאַסען...
6
עס געפֿינען זיך דאָ אויך ניט־יידישע פאמיליעס.
7
אַלע איינוווינער זיינען קרובימ צווישן זיך: פֿעטערס, מומעס, פלימעניקעס(צעם), שוועסטער־קינדער אד״גל, פארנעמען זיך מיט לאַנדווירטשאפֿט און אַ טייל מיט פֿורמאנעריי ווי אַ צוגאב, זיינען מקיים דעם “בזעת אפיך” אין די גאנצע הונדערט פראצענט.
8
פֿון מאיאנטעקס פֿון זיך, אַן דער דערלויבעניש פֿון דער מאכט.
9
ביי היינטיקן טאג, ווען עס זיינען אריבער שוין צען יאר זינט די קאלאניזירונג האָט זיך אנגעהויבן, קען מען שוין אונטערפירן אַ שטיקל סך־הכל.
10
וויל שוין גנענדיל מודה זיין אויפ׳ן אמת, זאָל זיין אַיין עק פון אָבקומעניש פאַר׳ן אָבנאַרען, צוליעב אַ נאַרישער בושה; עפענט זיך אָבער באותו הרגע אויף די טהיר, הערט זיך איהר

National Corpus of Russian

API for National Corpus of Russian (http://ruscorpora.ru/index.html)

Search Parameters

query: str or list([str])
query or queries (currently only exact search by word or phrase is available)
num_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
whether to collect grammatical tags for target word or not
subcorpus: str, default ‘main’

subcorpus. Valid: [‘main’, ‘syntax’, ‘paper’, ‘regional’, ‘school’,

‘dialect’, ‘poetic’, ‘spoken’, ‘accent’, ‘murco’, ‘multiparc’, ‘old_rus’, ‘birchbark’, ‘mid_rus’, ‘orthlib’]

Example

corp = lingcorpora.Corpus('rus')
results = corp.search('сердце', n_results=10, subcorpus='poetic')
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"сердце": 100%|██████████| 10/10 [00:00<00:00, 23.94docs/s]

1   Не будильник поставлен на шесть,  а колотится сердце быстрей.
2   Да и сердце легче бьется ― поддается уговорам.
3   Прелесть, от нее дрожит сердце возле птиц или ночниц бледных.
4   Чтоб они стали перинами белыми с мягкой опорой на дне,  и невредимыми съехали, целыми дети на той стороне.   Сердце привязано ниткой невидимой.   Нить коротка, а земля велика.
5   Моя мама умерла девятого мая, когда всюду день-деньской надрывают сердце «аты-баты» ― коллективный катарсис такой.
6  Чтобы скорей, скорей горло его достать.   Сердце его потрогать.
7   И ― прочь через площадь в закатных лучах В какой-нибудь Чехии, Польше… Разбитое сердце, своя голова на плечах ― Чего тебе больше?
8   «Хотел бы я знать, если Бог повелит,  О чем твое старое сердце болит».
9   Когда уйдет последний друг И в сердце перемрут подруги,  Я очерчу незримый круг И лиру заключу в том круге.
10   О том не надо вспоминать,  Но что-то в сердце изломилось:  ― Не узнаю родную мать.

National Corpus of Russian: Parallel Subcorpus

API for parallel subcorpus of National Corpus of Russian (http://ruscorpora.ru/search-para-en.html)

Search Parameters

query: str or list([str]):
query or queries (currently only exact search by word or phrase is available)
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
whether to collect grammatical tags for target word or not
subcorpus: str, default ‘rus’

subcorpus (‘rus’ - search query over all subcorpora). Valid: [‘rus’, ‘eng’, ‘bel’, ‘bul’, ‘bua’, ‘esp’, ‘ita’,

‘zho’, ‘lav’, ‘ger’, ‘pol’, ‘ukr’, ‘fra’, ‘sve’, ‘est’]
query_language: str
language of the ‘query’

Example

corp = lingcorpora.Corpus('rus_parallel')
results = corp.search('авось', n_results=10, query_language='rus')
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.transl.strip(), '

‘, target.text.strip())

"авось": 100%|██████████| 10/10 [00:00<00:00, 20.01docs/s]

1 — Un Russe, ça tient sur trois béquilles: “on sait jamais”, “on verra bien”, et “on s'en sortira toujours”.
 – Русский человек крепок на трех сваях – «авось», «небось» и «как-нибудь».
2 – Да ви кажа, не ми се вярва… – Порфирий Петрович махна с ръка. – И нищо няма да излезе от цялата работа Съвсем безнадежден случай… Но впрочем идете.    Може да извадите по-голям късмет от мен.    И позна.
 – Я признаться уж не верю-с… – Порфирий Петрович махнул рукой. – Ничего мы тут не зацепим. Кругом одна безнадежность… А впрочем сходите.    Авось вам больше моего повезет.    И ведь как в воду смотрел.
3 Руският злодей е пламенен и недалновиден, убива както дойде.
 Русский злодей горяч и нерасчетлив, крушит на авось.
4 Първо, престъплението се оказа все пак не европейско, а руско, стремглаво.
 Во-первых, преступление все-таки оказалось не европейское, а русское, на авось.
5 И сложете на всекиго номер.    Да се надяваме, че няма да ги объркаме.    Вече ги научих всички наизуст.
 Да еще нумер каждому проставьте.    Ничего, авось не перепутаем-с.    Я их всех уж наизусть успел выучить.
6 Nikt, rzecz jasna, nie zabroni waszej dostojności słać dalszych epistoł, kropla wszak drąży skałę, kto wie, może któryś z kardynałów wreszcie ulegnie, może wreszcie mnie odwołają?
 Никто, естественно, не запретит вашей милости кропать новые эпистолы, ибо капля камень точит, как знать, авось кто-нибудь из кардиналов наконец поддастся, возможно, меня наконец отзовут.
7 Становішча яго, канешне, было зусім ахавае, хаця ў глыбіні сьвядомасьці ўсё ж таілася маленькая спадзёўка.    На авось ці, можа, на цуд.    Калі іншага не было, звычайна спадзяваліся на цуд, мабыць, так было заўжды.
 Положение его, конечно, аховое, но в глубине сознания все-таки теплилась маленькая надежда.    На авось или, может, на чудо.    Когда другого не находилось, обычно полагались на чудо, так было всегда.
8 Становішча яго, канешне, было зусім ахавае, хаця ў глыбіні сьвядомасьці ўсё ж таілася маленькая спадзёўка.    На авось ці, можа, на цуд.    Калі іншага не было, звычайна спадзяваліся на цуд, мабыць, так было заўжды.
 Положение его, конечно, аховое, но в глубине сознания все-таки теплилась маленькая надежда.    На авось или, может, на чудо.    Когда другого не находилось, обычно полагались на чудо, так было всегда.
9 Цуд, вядома, памагаў рэдка, болей падводзіў, асабліва атэістаў-бальшавікоў, якія, быццам не ведаючы таго, цяпер так дружна рушылі да хрысьціянскіх цудаў.    Авось паможа!    Калі памаліцца Богу, абразам, паклікаць царкоўных іерархаў на шматлюдныя прапагандовыя шоу.
 Чудо, конечно, выручало редко, больше подводило, особенно атеистов-большевиков, которые теперь так дружно стали взывать к христианскому чуду.    Авось выручит!    ―
10 Цуд, вядома, памагаў рэдка, болей падводзіў, асабліва атэістаў-бальшавікоў, якія, быццам не ведаючы таго, цяпер так дружна рушылі да хрысьціянскіх цудаў.    Авось паможа!    Калі памаліцца Богу, абразам, паклікаць царкоўных іерархаў на шматлюдныя прапагандовыя шоу.
 Чудо, конечно, выручало редко, больше подводило, особенно атеистов-большевиков, которые теперь так дружно стали взывать к христианскому чуду.    Авось выручит!    ―

Polish-Russian Parallel Corpus

API for Polish-Russian Parallel Corpus (http://pol-ros.polon.uw.edu.pl/)

Search Parameters

query: str or list([str]):
query or queries (currently only exact search by word or phrase is available)
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
subcorpus: list

subcorpus (all of the mentioned below by default). Valid: [‘non-fiction’, ‘fiction<1945’, ‘fiction>1945’, ‘press’, ‘law’, ‘religious’,

‘russian’, ‘foreign’, ‘polish’]

Example

corp = lingcorpora.Corpus('rus_pol')
results = corp.search('лягушка', n_results=10, query_language='rus')
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.transl.strip(), '

‘, target.text.strip())

"лягушка": 100%|██████████| 10/10 [00:00<00:00, 42.38docs/s]

1 Na sąsiednią mogiłę wskoczyła wielka żaba.
 На соседнюю могилу запрыгнула огромная лягушка.
2 - Jasne, brekek - powiedziała żaba.
 – Само собой, брекекек, – сказала лягушка.
3 O mój Mowgli - bo będę cię odtąd nazywała Mowglim, czyli Żabą - nadejdzie czas, kiedy zapolujesz na Shere Khana, jak on dziś polował na ciebie!
 Да, да, я назову тебя Маугли - лягушка... и когда-нибудь ты будешь охотиться на Шер Хана, как он охотился на тебя.
4 Cóż złego może nam wyrządzić ta goła żaba?
 Какой вред может принести нам безволосая лягушка?
5 - W imieniu Mowgliego, czyli Żaby.
 - Я Маугли-лягушка.
6 Wziąłem go za rękę wprowadzając na ciemne schody, aby uchronić od uderzenia się o cośkolwiek. Wilgotny chłód tej ręki tak był przenikliwy i przykry, iż była chwila, żem chciał ją wypuścić z mych dłoni... i uciec.
 Я повел его за руку по темной лестнице, чтобы он не стукнулся обо что-нибудь головой; рука была на ощупь такой влажной и холодной – совсем как лягушка! – что мне захотелось оттолкнуть ее и убежать.

Tatar Corpus

API for Tatar corpus (http://web-corpora.net/TatarCorpus/).

Search Parameters

query: str or list([str])
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('tat')
results = corp.search('теле', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"теле": 100%|██████████| 10/10 [00:02<00:00,  4.85docs/s]

1 Теле авызына бәйләнгән диярсең, ник бер сүз ката алсын.
2 Гармун күреген шап итеп тарттырып куйгач, Касыймның теле ачылды.
3 Теле йөрәгенә түгел, акылына буйсынырга тырышты.
4 Колак очларына ут капкан Нәкыя терсәге белән егеткә төртеп алды:.Теле шушының.
5 1939 елның көзендә читтән торып Мәскәү педагогика институтының рус теле һәм әдәбияты факультетына укырга керә.
6 Соңыннан, Сталинабад(Дүшәмбе) шәһәренә күчеп, таҗиклар арасында яши башлагач, ул әлеге телдә дә матур гына аңлаша, институтта укыганда немец теле белән дә кызыксына.
7 Кызганыч, бүген мәчетләргә урыс теле үтеп керә башлады.
8 Бу легионда тәрҗемәче һәм немец теле укытучысы сыйфатында Фридрих Биддер хезмәт итә.
9 шигырьләрендә дә җәмгыятьнең кешелексезлеген, иҗтимагый-сәяси вазгыятьне «эзоп» теле аша тасвирлау урын ала.  «
10 «Хәзерге татар теле кириллицага нигезләнгән» дип әйтү дә логиканы боза.

Udmurt Сorpus

API for Udmurt corpus (http://web-corpora.net/UdmurtCorpus/search/).

Search Parameters

query: str or list([str]):
query or queries
n_results: int, default 100
number of results wanted
kwic: bool, default True
kwic format (True) or a sentence (False)
get_analysis: bool, default False
tags shown (True) or not (False)

Example

corp = lingcorpora.Corpus('udm')
results = corp.search('кыл', n_results=10)
for result in results:
    for i, target in enumerate(result):
        print(i+1, target.text)
"кыл": 100%|██████████| 10/10 [00:01<00:00,  5.64docs/s]

1 Клубен кивалтӥсь Нина Анатольевна Кузнецова но паймемын.- Кинлы кулэ ни милям клубмы? - лулӟе со. - Юртэз колхозлэн, кыл кутӥсез - нокин но уг сюры.
2 Отысь клубез радъян пумысен вераськон ёросысь вылӥ кивалтӥсьёсмылэн но кыл йылазы ялан берга.
3 Номыр понна кыл уд кутӥськы.
4 Калыкен одӥг кыл шедьтыны секыт ӧвӧл.
5 Чеберлыко литератураез лыдӟыны ӧдъяй, озьы вераськонме волятӥ, кыл шыкысме узырмытӥ.
6 Ву тудӟонэз пумитаны дасьлык понна нырысь ик кыл куто кар но ёрос кивалтӥсьёс.
7 ЮЛИЯ ОЛЮНИНА УДМУРТ КУН УНИВЕРСИТЕТЫСЬ УДМУРТ ФИЛОЛОГИ ФАКУЛЬТЕТЫН ДЫШЕТСКИСЬ:«Чошатоно ке удмурт кылын, китай кыл со туж секыт ми понна, малы ке шуоно, отын портэм интонациосты соблюдать кароно.
8 Со ваньмыз понна кыл кутыны уг кышка.
9 Малы?- Туала арын туж модной кыл вань - кризис, - валэктэ Людмила Королёва. - Милемды но со шуккиз, лэся.
10 А. Ф. Лесун кыл сётӥз коньдон но лэсьтӥськон пумысен Удмурт Элькунлэн Президентэныз пыр-поч кенешыны, ивортэ «Можгинские вести » газет.