දේශීය භාෂා බිහිදොර

වාග් සම්පත්

නිර්වාණ මඟ සිංහල පෙළ සිට කථන දත්ත කාණ්ඩ

High Quality Sinhala dataset for Text to speech algorithm training – specially designed for deep learning algorithms.

A new dataset that can be used for building new Sinhala TTS voices using deep learning algorithms is now available below:
https://github.com/pathnirvana/sinhala-tts-dataset

භාෂා තාක්ෂණ පර්යේෂණාගාරය – කොළඹ විශ්ව විද්‍යාලයීය පරිගණක අධ්‍යයනායතනය

සමකාලීන සිංහල වාග් සංහිතාව (වචන මිලියන දහයකින් සමන්විතයි.)වචන මිලියන දහයක් වන මෙම UCSC සිංහල වාග් සංහිතාව සිංහල පුවත්පත් ලිපි එකතුවකින් සකස් කරන ලද්දකි. මෙහි පුවත්පත් කතුවැකි, විශේෂාංග ලිපි, විදෙස් පුවත් සහ ක්‍රීඩා පුවත් ඇතුළත් ලිපි ගොනු 2794ක් අඩංගු වන අතර එහි ඒකරූපී වචන 135,000ක් පමණ අන්තර්ගත වෙයි.
භාගත කරන්න

ඉංග්‍රීසි – සිංහල සමාන්තර වාග් සංහිතාවවචන ලක්ෂයක් පමණ ඇතුළත් මෙම සමාන්තර වාග් සංහිතාවෙහි ඉංග්‍රීසි – සිංහල සමාන්තර වාක්‍ය 4,300ක් පමණ ඇතුළත් වෙයි. වාග් සම්පතක් ලෙස මෙය පරිගණක ආධාරක පරිවර්තන කටයුතු සඳහා මෙන්ම අදාළ භාෂා දෙක සඳහා නිර්මාණය කෙරෙන යාන්ත්‍රික පරිවර්තන යෙදුම් සඳහා ද උපකාරී වෙයි.
භාගත කරන්න

සිංහල සංකේත වාග් සංහිතාව (වචන ලක්ෂ පහකින් සමන්විතයි.)සිංහල සංකේත වාග් සංහිතාව භාෂාවේදීන් කිහිප දෙනෙකුගේ දායකත්වයෙන් UCSC සිංහල වාග් ගොනු සංකේතාවලිය (පළමු වෙළුම) අනුව සංකේනය කොට සැකසුණකි. කිනම් ගොනුවකට අයත් වන්නේ දැයි හඳුනා ගැනීමට අපහසු වචන ප්‍රශ්නාර්ථය (?) යොදා සලකුණු කොට තිබේ.
භාගත කරන්න

UCSC සිංහල වදන්දැල (වචන 1300ක් සඳහා)UCSC සිංහල වදන්දැල (පළමු වෙළුම) වචනාර්ථ 1,075කින් සමන්විත වන අතර අදාළ අරුත් සඳහා සමානාර්ථ ගොනු සහ ඊට අදාළ වන ප්‍රින්ස්ටන් වදන්දැලෙහි හැඳුන්ම් අංකය ඇතුළත් වෙයි.
භාගත කරන්න

UCSC සිංහල වාග් ගොනු සංකේතාවලියවිරාම ලකුණු හැරුණු විට UCSC සිංහල වාග් ගොනු සංකේතාවලියෙහි (Part of Speech Tagset) වෙනස් වචන ගොනු 22ක් වෙයි. මෙහි දී විරාම ලකුණු සඳහා එක් ගොනු සංකේතයක් භාවිත නොවන අතර සෑම විරාම ලකුණක්ම එම ලකුණින්ම සලකුණු කෙරේ.
භාගත කරන්න

සිංහල සංඥා නාමාවලියමෙහි සිංහල පුද්ගල නම්, රටවල් සහ දේශීය, විදේශීය නගර නම්, ශ්‍රී ලංකාවෙහි ගංගා සහ වැව්වල නම්, සිංහල කලාකරුවන්ගේ නම් ඇතුළත් වන අතර එය සංඥා නාම 20,800ක පමණ එකතුවකි.
භාගත කරන්න

NamedEntity Tagged CorpusSinhala Named Entity Tagged Corpus consists around 83K words that have been tagged for person names, location names and organization names as Named Entities.
භාගත කරන්න

සිංහල ව්‍යාකරණ වචනාවලියසිංහල භාෂාවේ එන සම්බන්ධක පද, ආදේශක පද, විශ්මයාර්ථ පද, නිපාත පද 425ක් පමණ මෙහි ඇතුළත් වෙයි.
භාගත කරන්න

ඉඟිය ඉංග්‍රීසි-සිංහල ශබ්දකෝෂ දත්ත ගොනුවමෙය ඉඟිය ඉංග්‍රීසි-සිංහල ශබ්දකෝෂ ඈඳුම සඳහා භාවිත දත්ත ගොනුවයි. ඉංග්‍රීසි වචන 36,000ක් පමණ එහි සිංහල තේරුම සමඟ මෙහි අන්තර්ගත වෙයි.
භාගත කරන්න

සිංහල ඒකරූපී වචනාවලියUCSC සිංහල වාග් සංහිතාවෙන් උපුටා ගත් ඒකරූපී වචන (distinct words) ලක්ෂ හතරක් පමණ මෙහි අඩංගු වෙයි.
භාගත කරන්න

කථන සිංහල වාග් සංහිතාවගැහැණු හඬ කාණ්ඩය

එක් ගැහැණු හඬකින් ඇති වාගාලාප 3000ක් මෙහි ඇතුළත් වෙයි. සිංහල භාෂාවෙහි බහුලව යෙදෙන වචන පිළිබඳ සැලකිලිමත් ව එම වාගාලාප තෝරා ගැනුණු අතර සිංහල භාෂාව සඳහා කථන සංජානන පද්ධතියක් නිර්මාණය කිරීම සඳහා මෙම දත්ත යොදා ගැනිණි.

පිරිමි හඬ කාණ්ඩය

එක් පිරිමි හඬකින් පටගත කළ වාගාලාප 625ක් මෙම කොටසෙහි ඇතුළත් වෙයි. මෙය සිංහල පෙළ කථන මෘදුකාංගයක් නිර්මාණය කිරීම සඳහා සකස් කෙරුණු දත්ත සමූහයකි.

මිශ්‍ර කාණ්ඩය

ජංගම දුරකථන සඳහා සින්දු ඉල්ලීම් කිරීමේ යෙදුමක් නිර්මාණය කිරීම සඳහා සකස් කළ මෙම වාග් සංහිතාවෙහි වෙනස් හඬ 2000කින් පමණ පටිගත කළ වාගාලාප 74,000ක් ඇතුළත් වෙයි.

සිංහල පුවත් කාණ්ඩය

පටිගත කරන ලද සිංහල පුවත්වලින් සැකසෙන මෙම කාණ්ඩයෙහි පිරිමි සහ ගැහැණු පුවත් නිවේදකයින්ගේ හඬ ඇතුළත් වාගාලාප 8000ක් පමණ වෙයි. මෙය දැනට ක්‍රියාත්මක වන ව්‍යාපෘතියකි.
භාගත කරන්න