உள்ளூர் மொழி நுழைவாயில்

சொல் வளங்கள்

பாத் நிர்வாணா சிங்கள டி.டி.எஸ் தரவுத்தொகுப்பு

உரையிலிருந்து பேச்சு வழிமுறைப் பயிற்சிக்கான உயர் தரமான சிங்களத் தரவுத்தொகுப்பு – ஆழ்ந்த கற்றல் வழிமுறைகளுக்கென (deep learning algorithms) சிறப்பாக வடிவமைக்கப்பட்டுள்ளது.

ஆழ்ந்த கற்றல் வழிமுறைகளைப் பயன்படுத்தி புதிய சிங்கள டி.டி.எஸ் குரல்களை உருவாக்கப் பயன்படுத்தக்கூடிய புதிய தரவுத்தொகுப்பு இப்போது கீழே கிடைக்கிறது:
https://github.com/pathnirvana/sinhala-tts-dataset

மொழி தொழினுட்ப ஆராய்ச்சி ஆய்வுகூடம் – யு.சி.எஸ்.சி. (UCSC)

மொழி ஆராய்ச்சிக்கு 10-மில்லியன்-சொல் சமகால சிங்கள உரை விரிதரவு
யு.சி.எஸ்.சி மினி விரிதரவில்(UCSC mini corpus) சிங்கள செய்தித்தாள் கட்டுரைகளிலிருந்து சேகரிக்கப்பட்ட 10 மில்லியன் சிங்களச் சொற்கள் உள்ளன. விரிதரவில் சுமார் 135,000 தனித்துவமான சொற்கள் உள்ளன, மேலும் இது தலையங்கங்கள், அம்சக் கட்டுரைகள், வெளிநாட்டுச் செய்திகள் மற்றும் விளையாட்டுச் செய்திகளைக் கொண்ட 2794 உரைக் கோப்புகளைக் கொண்டுள்ளது.

To download

100K சொல் ஆங்கிலம், சிங்கள இணை விரிதரவு
ஆங்கிலம்-சிங்களம் கணினி மொழிபெயர்ப்பில் ஈடுபட்டுள்ள மொழி ஆராய்ச்சியாளர்களுக்கான ஆங்கிலம்-சிங்களம் இணை விரிதரவு. விரிதரவில் 4,301 ஆங்கில வாக்கியங்களும் அதனுடன் தொடர்புடைய சிங்கள மொழிபெயர்ப்புகளும் உள்ளன.
To download

500k சிங்கள குறியிடப்பட்ட விரிதரவு
யு.சி.எஸ்.சி குறியிடப்பட்ட விரிதரவில் (UCSC tagged corpus) 500K சொற்கள் உள்ளன, யு.சி.எஸ்.சி சிங்கள பிஓஎஸ் டேக்செட் (பதிப்பு 1) இனனப் பயன்படுத்தி சிங்கள மொழியியலாளர்களால் கைமுறையாகக் குறியிடப்பட்டது.
To download

மொழி தொழினுட்ப முன்னேற்றத்திற்காக 1300 சொல் சிங்கள வேர்ட்நெட்
யு.சி.எஸ்.சி சிங்கள வேர்ட்நெட் (பதிப்பு 1) 1,075 சொல் அர்த்தங்களைக் கொண்டுள்ளது, மேலும் ஒவ்வொரு அர்த்தத்திலும் தொடர்புடைய ஆங்கில வார்த்தையுடன் சின்செட்டுகள் (synsets) அடங்கும், சின்செட்டுக்கான(synset) பிரின்ஸ்டன் ஐடி, பிஓஎஸ்(POS) வகை மற்றும் பொருள் விளக்கச் சொல் ஆகியவையும் அடங்கும்.
To download

யு.சி.எஸ்.சி சிங்கள பிஓஎஸ் டேக்செட்
சிங்களத்திற்கான பேச்சு டேக்செட்டின் ஒரு பகுதி (பதிப்பு 1). நிறுத்தற்குறிகள் உட்பட 28 வெவ்வேறு சொல் வகுப்புக் குறிச்சொற்கள் உள்ளன. ஒரு குறிப்பிட்ட குறியீட்டுக்கு ஒரு நிறுத்தற் குறியீடு ஒரு தனிக் குறியமாகக் கருதப்படுகிறது.
To download

மொழி ஆராய்ச்சிக்கான சரியான பெயர்களின் பட்டியல்
நாட்டின் பெயர்கள், சிங்கள தனிப்பட்ட பெயர்கள், இலங்கை மற்றும் சர்வதேச நகரங்களின் பெயர்கள், சிங்களக் கலைஞர்களின் பெயர்கள், இலங்கையிலுள்ள ஆறுகள் மற்றும் நீர்த்தேக்கங்கள் உள்ளிட்ட சிங்கள முறையான பெயர்களின் பட்டியல். தற்போது சுமார் 20,800 முறையான பெயர் உள்ளீடுகள் உள்ளன.
To download

NamedEntity குறியிடப்பட்ட விரிதரவு
சிங்களப் பெயரிடப்பட்ட உள்பொருள் குறிக்கப்பட்ட விரிதரவு சுமார் 83K சொற்களைக் கொண்டுள்ளது, அவை நபர்களின் பெயர்கள், இடங்களின் பெயர்கள் மற்றும் நிறுவனப் பெயர்களுக்கு பெயரிடப்பட்ட உள்பொருள் எனக் குறிக்கப்பட்டுள்ளன.
To download

சிங்கள செயற்பாட்டுச் சொற்களின் பட்டியல்
சிங்கள இணைப்பிடைச் சொற்கள், வரையறுப்பான்கள், வியப்பிடைச் சொற்கள், இடைச் சொற்கள் மற்றும் பின்னிலைகளைக் கொண்ட 425 சிங்கள செயல்பாட்டுச் சொற்களின் ஒரு பட்டியல்.

To download

இங்கியா ஆங்கிலம்-சிங்களம் அகராதி தரவுத்தளம்
இங்கியா ஆங்கிலம்-சிங்களம் அகராதி தரவுத்தளம் என்பது துணை நிரலில்(add-on) பயன்படுத்தப்படும் ஆங்கிலம்-சிங்களம் அகராதி ஆகும். இந்தத் தரவுத்தளத்தில் அண்ணளவாக 36,000 ஆங்கிலச் சொல் உள்ளீடுகளும் அதனுடன் தொடர்புடைய சிங்கள அர்த்தங்களும் உள்ளன.

To download

400K தனித்துவ சொல் பட்டியல்யு.சி.எஸ்.சி சிங்கள உரை விரிதரவிலிருந்து பிரித்தெடுக்கப்பட்ட 400K தனித்துவமான சொற்களின் பட்டியல்.

To download

சிங்கள பேச்சு செயலாக்கத்திற்கான பேச்சு விரிதரவுகள் (Speech corpora)
பெண் குரல் விரிதரவு

பேச்சு விரிதரவு (Speech corpus) என்பது ஒரு பெண் பேச்சாளர் பேசும் 3000 சிங்களச் சொற்களைக் கொண்டது. இந்த விரிதரவு ஆரம்பத்தில் சிங்கள மொழிக்கான தானியங்கி பேச்சு அறிதல் முறைமையை (ஏ.எஸ்.ஆர்) உருவாக்க வடிவமைக்கப்பட்டது. சிங்கள மொழியில் அடிக்கடி பயன்படுத்தப்படும் சொற்களைக் கருத்திற் கொண்டு பேசும் சொற்கள் தேர்ந்தெடுக்கப்பட்டன.

ஆண் குரல் விரிதரவு

பேச்சு விரிதரவு (Speech corpus) என்பது ஒரு ஆண் பேச்சாளர் பேசும் 625 சிங்களச் சொற்களைக் கொண்டது. இந்த விரிதரவு ஆரம்பத்தில் சிங்கள மொழியிற்கான ஒரு உரை இலிருந்து பேச்சு முறைமையை (டி.டி.எஸ்) உருவாக்க வடிவமைக்கப்பட்டது.

பேச்சு விரிதரவு (Speech corpus) என்பது வெவ்வேறு வயதினரில் ஆண் மற்றும் பெண் இருவரையும் பிரதிநிதித்துவப்படுத்தும் பல்வேறு பேச்சாளர்கள் பேசும் 74,000 சிங்கள சொற்களைக் கொண்டதாகும். இந்த விரிதரவு ஆரம்பத்தில் கையடக்கத் தொலைபேசிகளில் பாடல் கோரிக்கை செயலியினை உருவாக்க வடிவமைக்கப்பட்டது.

சிங்கள செய்திகள் விரிதரவு

ஒரு பேச்சு விரிதரவு (A speech corpus) என்பது ஆண் மற்றும் பெண் அறிவிப்பாளர்களிடமிருந்து பதிவு செய்யப்பட்ட சிங்கள செய்திகளின் 8000 சொற்களைக் கொண்டதாகும். இது தற்போது நடைமுறையிலிருக்கும் செயற்திட்டமாகும்.
To download