Skip to main content

Кереш

archive.selimcan.org проектының максаты — selimcan.org уку-укыту программасында кулланылган телләр өчен онлайн китапханә булдыру. Сүз текстлар (китаплар) турында гына бара. Видео я аудиоларны архивлау әлегә күздә тотылмый. Авторлык хокукларын бозмас өчен, аерым рөхсәт алынмаган булса, текстлардан да иҗтимагый милек · общественное достояние · public domain булган текстларны гына өстәячәкбез. Иҗтимагый милек булсын өчен, гадәттә текст авторының вафатыннан соң 70 ел узган булырга тиеш (кайбер очракларда озаграк).

Татар телендәге текстларны туплаучы берничә китапханә бар я бар иде, мәсәлән [1], [2], [3] (эшләми), [4] (эшләми).

Ягъни китапханә сайтлары ачылалар да, ара-сыра, кызганычка каршы, ябылалар. Шуңа күрә безнең максат — җиңел генә копияләп була торган бер тупланма булдыру. Копия дигәндә, бер архив-файл буларак яки сайтның тулы "көзгесе" буларак копияләү мөмкинлеген күз уңында тотабыз. Күптелле Gutenberg.org һәм нимыс телендәге Projekt-gutenberg.org шул рәвешчә эш итә мәсәлән. Беренчесенең әллә ничә көзге-сайты бар. Ул көзге сайтлар периодик рәвештә ана сайт https://gutenberg.org/ белән синхронизацияләнә. https://gutenberg.org/ юкка чыкса да, китапханә юкка чыкмаячак дигән сүз. https://www.projekt-gutenberg.org/ сайтында булган бөтен текстларны исә бер USB дискта сатып алып була. Елларча тупланган текстлар шул рәвешле юкка чыкмаячак дигән сүз.

https://gutenberg.org/ проектындагы кебек үк, тупланган текстларны берничә форматта тәкъдим итәргә исәп (html, epub, pdf, djvu, txt һ.б.ш.) Gutenberg проектыннан аермалы буларак, нигез формат HTML түгел, ә TEI дигән формат булачак. Башка форматлар автоматик рәвештә нигез форматтан генерацияләнәчәк.

TEI форматы ул HTML "туганы" — XML-гә нигезләнгән формат. HTML кебек үк, XML-ны өйрәнү дә чагыштырмача җиңел. TEI-XML форматында язылган текстларның кайбер мисалларын бу сайтта күрә аласыз.

Шулай да XML-ның бер кимчелеге бар — бөтен теглар да диярлек ике тапкыр кабатланганга күрә, XML-ны кулдан язу шактый вакыт сорый (һәм укыр өчен дә бераз "күпхәрефле" формат ул). Шуңа күрә без TEI-ны турыдан-туры XML-да түгел, ә at-exp дигән, "күңеле белән" XML-га якын, әмма җиңеләйтелгән альтернатив форматта язачакбыз.

Мисал өчен, бу биттәге TEI-XML-да язылган кыска проза әсәренең беренче параграфын алыйк:

<p>
<figure>
<graphic url="shrews" rend="thumb"/>
<p>
<hi rend="bold">‘A New yeares guift for shrews’</hi>
</p>
</figure>
</p>

Безнең TEI-AT-EXP форматында ул болай язылачак:

@p{
@figure{
@graphic[#:url "shrews" #:rend "thumb"]
@p{
@hi[#:rend "bold"]{‘A New yeares guift for shrews’}
}
}
}

Җәяләрне, TEI-XML белән TEI-AT-EXP арасындагы уртаклык-аермалар аңлашылсын өчен аерым юлларга куйдык. Җыйнаграк итеп болай да язып була:

@p{
@figure{
@graphic[#:url "shrews" #:rend "thumb"]
@p{@hi[#:rend "bold"]{‘A New yeares guift for shrews’}}}}

Болар бик кыен күренсә, борчылмагыз, TEI-AT-EXP турында бу сайтта тагын да мисаллар һәм өстәмә мәгълүмат күп булачак. Архивта сезгә кадәр өстәлгән текстларны һәм аларның оригинал сканнарын күргәч, күп нәрсә үзеннән-үзе аңлашылачак дип тә уйлыйм.

Әлегә, кыскачасы: элемент исемнәре (теглар ягъни) TEI проектыннан алыначак, һәм ул элементлар AT-EXP форматында язылачак, менә болай: @ТегныңИсеме{тегның эчендәгеләр}. Мәсәлән: @p{Мин бер параграф.}.

Текстларны архивка өстәү

Кирәкле саналган текстларны archive.selimcan.org-ка өстәү берничә этапта башкарыла.

  1. Сканерлау.
  2. OCR, рәсемдәге текстларны тан(ыт)у.
  3. Текстка TEI-AT-EXP тегларын өстәү.
  4. Html һәм башка форматтагы версияләрне.

Һәр этап турында күбрәк — алдагы сәхифәләрдә.