سنڌي اکرن جي معياري رمز جي رجسٽريشن ۽ يُونيڪوڊ جو معياري استعمال
(The Standardized Registration of Sindhi Letters and the Use of Standardized Unicode )
ڊاڪٽر احسان احمد عرساڻي
Abstract
This research paper examines the challenges of developing and standardizing the Sindhi language in the current era of computer and information technology. Over the last fifty years, the world has witnessed rapid technological progress, setting unprecedented milestones in digital invention and innovation. The evolution of electronic information delivery systems, which continue to change at an accelerating pace, underscores the urgent need for the standardization of the Sindhi language. This standardization is crucial, as technological advancements have turned the world into a global village, placing Sindhi in direct competition with other global languages. To fully leverage modern technological resources, establishing a national standard is imperative. Without it, Sindhi risks falling behind in its development compared to other languages. Currently, like hundreds of other languages, Sindhi relies on Unicode encoding for the exchange of information and ideas via the Internet. While Sindhi has successfully entered the Information Age, inconsistencies between the standard Sindhi alphabet and Unicode have caused confusion. A key issue is that Unicode has allocated multiple code points for the letter "هـ". As a result, different keyboards and fonts use varying Unicode characters for the same letter, leading to discrepancies. Words that appear identical on screen or in print are, in fact, stored differently in digital formats. Moreover, two essential letters in the standard Sindhi alphabet— Jhae (جھ) and Ghaaf (گھ)—are entirely absent from Unicode, hindering proper usage and making it difficult to search for words in online dictionaries. This issue is also evident in the Sindhi Language Authority's online dictionary, accessible at https://dic.sindhila.edu.pk/.These inconsistencies will pose challenges for future language processing systems, such as Text-to-Speech systems for Sindhi, and will affect the creation of essential reference materials, such as thesauri. In this paper, I argue that, beyond standardizing Unicode usage for Sindhi, it is essential to develop a dedicated code for Sindhi characters and register it with both the International Organization for Standardization (ISO) and the Internet Assigned Numbers Authority (IANA). Achieving this, however, requires the active involvement of the Sindhi Language Authority.
Keywords: Sindhi language, technological advancements, Unicode, Standardization, language characters and letters, ISO
تت
پوين پنجاهه سالن ۾ دنيا ٽيڪنالاجيءَ ۾ ترقيءَ Technological progress جو سفر تيزيءَ سان طئي ڪيو آهي. ڄاڻ جي ترسيل جا برقياتي طريقا جنھن تيزيءَ سان تبديليءَ هيٺ آهن، تنھن جي تقاضا آهي ته پاڻ سنڌي زبان جي معيارسازيءَ لاءِ تڪڙا قدم کڻون. اهو ان ڪري به ضروري آهي جو ان تڪڙي ترقيءَ دنيا کي عالمي ڳوٺڙو بنائيندي سنڌي زبان کي سڄيءَ دنيا جي ٻولين سان سڌي چٽاڀيٽيءَ ۾ آڻي ڇڏيو آهي. جديد ٽيڪنيڪي وسيلن جو ڀرپور فائدو وٺڻ لاءِ گهربل معيارسازيءَ جي ضرورت آهي، جنھن کان سواءِ سنڌي زبان پنھنجي ترقيءَ جي رفتار کي قائم نه رکي سگهندي ۽ ان ڊوڙ ۾ ٻين ٻولين کان پٺتي رهجي ويندي.
هن وقت دنيا جي سَوَن ٻين ٻولين جيان سنڌيءَ ۾ به باهم ڄار (Internet) ذريعي ڄاڻ ۽ خيالن جي ڏي وٺ يونيڪوڊ رمز تي آڌاريل آهي. جيتوڻيڪ ان سان سنڌي زبان اثرائتي نموني اطلاعاتي دور (Information Age) ۾ داخل ٿي چڪي آهي، پر معياري سنڌي الف بي ۽ يونيڪوڊ ۾ سَو سيڪڙو مطابقت نه هئڻ سبب ان رمز جي استعمال ۾ ڪي مونجهارا ٿي پيا آهن. انهن مونجهارن جو وڏي ۾ وڏو ذريعو يونيڪوڊ ۾ "هـ" اکر لاءِ مختص ٿيل هڪ کان وڌيڪ جايون هئڻ آهي. ڪمپيوٽر (Computer) تي سنڌي اکرن جي داخلا لاءِ استعمال ٿيندڙ مختلف ڪي بورڊ ۽ مختلف فانٽس ۾ "هـ" اکر لاءِ مختلف يونيڪوڊ حرف استعمال ٿيڻ سبب پردي يا ڪاغذ تي ساڳيا نظر ايندڙ لفظ ڪمپيوٽر ۽ باهم ڄار اندر مختلف يونيڪوڊ حرفن سان سانڍيل آهن. ان کان سواءِ يونيڪوڊ ۾ معياري سنڌي الف بي جا ٻه اکر”جهـ“ ۽ ”گهـ“ مڪمل طور غير موجود آهن. ان سان سنڌي زبان جي معياري استعمال کي ڌڪ لڳو آهي ۽ آن لائن لغتن ۾ لفظن جي ڳولا مشڪل بڻيل آهي. سنڌي ٻولي اختياري (Sindhi Language Authority) جي ويب پتي https://dic.sindhila.edu.pk/ تي موجود لغت ۾ پڻ اهڙا مونجهارا پيدا ٿيا آهن.
ان کان سواءِ سنڌي ٻوليءَ لاءِ مستقبل ۾ جڙندڙ زبان پردازڪاري سرشتن
Language Processing Systems جھڙوڪ Text-to-Speech Systems ۾ پڻ مونجهارا پيدا ٿيندا. ساڳيا مونجهارا سنڌي زبان ۾ جديد حوالاجاتي (Reference) مواد جھڙوڪ ٿيسارس وغيره جي تياريءَ ۾ پڻ پيش ايندا.
هن مقالي ۾ آئون اهو مقدمو پيش ڪندس ته نه رڳو يونيڪوڊ جي درست استعمال لاءِ معيار جوڙڻ جي ضرورت آهي، بلڪه سنڌي اکرن جي معياري رمز جوڙڻ ۽ ان کي معيارسازيءَ جي بينالاقوامي تنظيم ISO وٽ توڙي Internet Assigned Numbers Authority وٽ رجسٽر ڪرائڻ پڻ لازمي آهي.
تعارف
سنڌي زبان جي مختلف رسمالخطن يا لپين ۾ لکجندي رهي آهي [1]. تنھنڪري اڄ به ان جي معياري رسمالخط تي بحث هلندا رهن ٿا [2]. ان بحث جو هڪڙو وڏو سبب سنڌي قوم جو مذهب جي آڌار تي ورهاڱو ۽ هندستان ۾ سنڌي ٻوليءَ لاءِ عربيءَ کان سواءِ ديوناگري خط به اختيار ڪرڻ آهي. ان کان سواءِ عربي رسمالخط ۾ به سنڌي زبان جي ڪيترن لفظن جي تحريري صورت تي اهڙا بحث به ٿيل آهن جيڪي معياري سنڌي الف بي کي تڪراري بڻائي ڇڏين ٿا. انهن مان ڪن مباحثن کي بدقسمتيءَ سان اجايو ڏني پئي وڃي [3]. انهن اجاين بحثن سان سنڌي ٻوليءَ جي معياري تحريري روايتن کي ڇيھو رسيو آهي ۽ نااتفاقي پيدا ٿي آهي.
پر موجوده دور ۾ واهپي ۾ ايندڙ ٻوليون ۽ علم و ادب جو ذريعو بڻيل ٻولين جو رڳو ڪاغذ تي ڇپجڻ ڪافي به آهي. هلندڙ دور باهمڄار Internet جو دور آهي، جنھن ۾ ٻوليون برقياتي ذريعن وسيلي پارمڪارجن transmit ٿيون ۽ برقياتي سنڀار ۾ سانڍجن Store ٿيون. بد قسمتيءَ سان اها سموري ٽيڪنيڀياسي ترقي سنڌ کان ٻاهر ٿي آهي، جنھن ۾ سنڌي سماج جي ڀاڱيداري نه هئڻ برابر آهي. تنھنڪري ڪمپيوٽر ۽ انٽرنيٽ جي اوائلي دور ۾ سنڌي ٻوليءَ جو استعمال عدم موجود رهيو. نه رڳو ايترو پر سنڌي ٻوليءَ کي رياستي سرپرستي نصيب نه هئڻ سبب پڻ بينالاقوامي سطح تي نمائندگي ميسر ٿي نه سگهي، ۽ بينالاقوامي ادارن وٽ سنڌي ٻوليءَ جي تحريري صورت جي معيارسازيءَ واري ڪم ۾ سنڌ سرڪار به ڪي جوڳا قدم نه کنيا. ان سموري صورتحال ۾ سنڌي ٻوليءَ جي اهميت ۽ پاڪستان توڙي هندستان اندر ان جي استعمال کي نظر ۾ رکندي جڏهن عالمي سطح جي ادارن سنڌي ٻوليءَ جي معيارسازيءَ تي ڪم ڪيو ته ڪي مونجھارا پيدا ٿي پيا. انهن مان هڪڙو مثال اکر "هـ" جو استعمال آهي. اهي مونجھارا ان ڪري پيدا ٿيا جو سرڪاري سطح تي سنڌي زبان جي پٺڀرائي نه هئڻ سبب انهن ادارن وٽ سنڌي لسانياتي مھارتن جي جوڳي نمائندگي غير موجود هئي.
آءِ ايس او 8859 رمزُون
معيارسازيءَ جي بينالاقوامي تنظيم آءِ ايس او ISO ۽ انٽرنيشنل اليڪٽروٽيڪنيڪل ڪميشن IEC جي گڏيل ٽيڪنيڪي ڪاميٽيءَ 8859 جي سڃاڻپ نمبر سان ڪيترين ئي ٻولين لاءِ علامت رمزون رجسٽر ڪيون آهن [4]. انهن مان ڪي مثال جدول 1 ۾ ڏنل آهن.
جدول 1: آءِ ايس او 8859 هيٺ رجسٽر ٿيل علامت رمزون [4]
شمار نمبر |
ٻوليون / رسمالخط |
معيار |
پھريون ڀيرو |
آخري ڀيرو |
1 |
لاطيني 1: الهندي يورپ جون ٻوليون |
ISO-8859-1 |
1987 |
1998 |
2 |
سِرِلِڪ |
ISO-8859-5 |
1988 |
1999 |
3 |
عربي |
ISO-8859-6 |
1987 |
1999 |
4 |
يُوناني |
ISO-8859-7 |
1987 |
2003 |
5 |
ابراني |
ISO-8859-8 |
1988 |
1999 |
6 |
ترڪي، مالٽيز، ايسپرانتو (لاطيني) |
ISO-8859-9 |
1989 |
1999 |
7 |
ٿاءِ (لاطيني) |
ISO-8859-11 |
2001 |
2022 |
8 |
وچ يُورپي ٻوليون |
ISO/IEC 8859-16 |
1998 |
2001 |
ڏسي سگهجي ٿو ته انهن مان اڪثر 1980ع واري ڏهاڪي جي پڇاڙيءَ ۾ ئي رجسٽر ٿيا آهن ۽ تازي ترين رمز ٿاءِ زبان جي آهي، جنھن جو تازو ترين ڀيرو Revision سن 2022ع ۾ ٿيو آهي. ان جدول ۾ ديوناگري موجود نه آهي. ديوناگريءَ جي رمز ISO-8859 تحت رجسٽريشن جي مرحلي ۾ هئي ته 1990ع ڌاري آءِ ايس او پنھنجي يونيورسل علامتي رمز 10646 شايع ڪرائي. تنھنڪري هندستاني سرڪار 1997ع ڌاري ISO-8859 تحت ديوناگري خط جي رجسٽريشن تان هٿ کڻي وئي ۽ هنن هندستاني معيارسازيءَ هيٺ ٻه معيار تيار ڪري انهن کي ISO-10646 جو حصو بڻارايو. انهن ٻن معيارن مان هڪڙي جو نالو Indian Script Code for Information Interchange (ISCII) [5] آهي ته ٻئي جو نالو Perso-Arabic Script Code for Information Interchange [6] آهي. انڊين اسڪرپ ڪوڊ ۾ ديوناگري، بنگالي-آسامي، گجراتي، گرمکي، ڪنڙ، ملايالم، اوڙيا، تامل ۽ تيلگو رسمالخط جون نشانيون شامل آهن، جڏهن ته پاسڪِي ۾ ڪشميري، سنڌي، اردو، ۽ پشتو رسمالخط جون نشانيون شامل آهن. معيارسازيءَ جو اهو ڪم هندستان جي مرڪزي سرڪاري اداري Centre for Development of Advanced Computing (CDAC) جي نظرداريءَ هيٺ ٿيو.
يونيڪوڊ 14.0
ساڳئي ئي وقت جڏهن آءِ ايس او پنھنجي معيار ISO-10646 تحت ڪم ڪري رهيو هو ۽ يونيڪوڊ ڪنساٽيئم يونيڪوڊ تي ڪم ڪري رهيو هو. اڳتي هلي آءِ ايس او ۽ يونيڪوڊ ڪنساٽيئم گڏجي ڪم ڪيو ۽ نتيجتاً ISO-10646 جو 2021ع ۾ شايع ٿيل ۽ يونيڪوڊ 14.0 بلڪل هڪجهڙا آهن. نتيجتاً اڄ هندستان جون ڪيتريون ئي ٻوليون ISO-10646 يعني يونيڪوڊ وسيلي ويب تي لکي پڙهي سگهجن ٿيون. هن وقت انٽرنيٽ تي ڄاڻ جي ڏي وٺ جو تمام وڏو ڀاڱو يونيڪوڊ وسيلي ئي عمل ۾ اچي ٿو. يُونيڪوڊ ۾ هر سنڌي اکر ٻن بائٽس Bytes جي جاءِ والاري ٿو [8-7]، جيڪا انگريزي اکرن جي مقابلي ۾ ٻيڻي آهي. يونيڪوڊ ۾ سنڌي ڌار ٻوليءَ جي جاءِ نه ٿي رکي. سنڌي صورتخطيءَ جا اهي اکر جيڪي عربيءَ ۾ نه ٿا اچن، تن کي يونيڪوڊ اندر عربي زبان جي اضافت Extension طور جاءِ ڏنل آهي.
معياري سنڌي اکر ميڙ
سنڌي-عربي رسمالخط يعني هاڻوڪي سنڌي الف بي جو معياري صورت ۾ استعمال تمام مضبوط روايت رکي ٿو. برطانوي راڄ کان وٺي هن مھل تائين ان ۾ تمام گهڻو مواد شايع ٿي چڪو آهي ۽ هن وقت به سنڌي زبان تيزيءَ سان وڌندڙ آهي ۽ سنڌي زبان ۾ ڪيترو ئي تحريري مواد شايع ٿي رهيو آهي. ان ۾ 52 اکرن کان سواءِ چند ٻيون نشانيون پڻ شامل آهن، جھڙوڪ ”آ“، ”۽“، ”۾“. ساڳيءَ ريت سرڪاري سرپرستيءَ ۾ پڻ سنڌي زبان جي تدريس جي ڏيڍ سَو سال ڊگهي تاريخ آهي. ان جي هِجي جا اصول باضابطه طور جوڙيل ڪِڪَپٽيءَ تي آڌاريل آهن، جنھن جي سکيا نه رڳو درسي ڪتابن ۾ ڏني پئي وئي آهي، بلڪه ان جي پٺيان تدريسي عملي لاءِ تربيتي ادارا پڻ ڪارفرما رهندا آيا آهن. پوين پنجاهه ورهين ۾ مجموعي طور تعليمي سرشتي جي ڪمزور ڪارڪردگي ۽ استادن جي تربيتي ادارن جي غير متحرڪ رهڻ سبب لساني ميدان ۾ معيارسازيءَ واري ڪم کي ڪاپاري ڌڪ لڳو آهي، ۽ ڪِڪَپٽيءَ کي آڌار بنائيندي هِجي جا اصول اختيار ڪرڻ ۾ ڪوتاهي ٿيڻ سبب سنڌي تحرير ۾ مونجهارا حل ٿي نه سگهيا آهن. پر هن مضمون جو مقصد انهن سمورن مونجهارن جو ذڪر ڪرڻ نه پر يونيڪوڊ وسيلي سنڌي زبان جي ترسيل ۾ پيدا ٿيل مونجھارن جو ذڪر ڪرڻ ۽ انهن جو حل تجويز ڪرڻ آهي.
مسئلا
جيتوڻيڪ هن وقت سنڌي زبان باهمڄار Internet تي يونيوڪوڊ ڪنساٽيئم جي UTF-8 ۽ UTF-16 نالي رمزسازين Encodings ذريعي اطلاعت Information جي ڏي وٺ لاءِ گهڻي ڀاڱي آسانيءَ سان استعمال ٿي رهي آهي، تنھن هوندي به ڊجيٽل سنڌي ٽيڪسٽ ۾ معيارسازيءَ جي کوٽ ۽ انيڪ موجھارن [9] سبب لغت سازي، ڳولا جي آساني، خودڪار ترجمي، ۽ معنوي ويب Semantic Web لاءِ سنڌي زبان اڃا تيار ٿي نه سگهي آهي. انهن مونجهارن جو وڏي ۾ وڏو سبب يونيڪوڊ ۾ ٻن سنڌي اکرن ”جھ“ ۽ ”گھ“ جي عدم موجودگي، ۽ انهن جي پورائي لاءِ اکر ”هه“ جو استعمال آهي. يونيوڪوڊ جو استعمال ڪندي سنڌي زبان جي ترسيل لاءِ ڪيترن ئي هنڌن تي ۽ ڪيترن ئي مختلف مقصدن سان ”هـ“ اکر جو استعمال ڪيو ويو آهي. پاڻ ان اکر جي مصرفن کي سمجهنداسين ۽ ان ۾ پيدا ٿيل مونجھارن کي سمجھنداسين. جيئن ته يونيڪوڊ ۾ سنڌيءَ کان سواءِ عربي خط ۾ لکجندڙ ڪيترين ئي ٻين ٻولين جا اکر ۽ نشانيون پڻ شامل آهن، تنھنڪري ان ۾ هڪ کان وڌيڪ جايُون شامل آهن جن جو مقصد مختلف ٻولين ۾ متفرق ”هـ“ اکرن کي ظاهر ڪرڻ آهي. يونيڪوڊ معيار 16.0 ۾ شامل عربي اکرن جي رينج [10] تان ورتل جدول 2 ڏيکاري ٿي ته يونيڪوڊ ڪنساٽيئيم طرفان ”هـ“ جي مختلف صورتن لاءِ ڪل 7 ڪوڊ پوائينٽس تجويز ڪيل آهن. ياد رهي ته انهن مان هر ڪنھن جي اڳين، وچين، ۽ پڇاڙڪي صورت لاءِ ڌار ڪوڊ مختص آهن، جيئن [11] ۾ سمجھايل آهي.
جدول 2: يونيوڪوڊ معيار 16.0 [10] ۾ "هـ" جي مختلف صورتن لاءِ
مختص ٿيل ڪوڊ پوائينٽس
شمار نمبر |
ڪوڊ پوائنٽ |
پردي تي ظاهري صورت |
1 |
0647 |
ه (اکر هه) |
2 |
06BE |
ھ (دوچشمي هه) |
3 |
06C0 |
ۀ (عربي هه مٿان ي) |
4 |
06C1 |
ہ (گول هه) |
5 |
06C2 |
ۂ (عربي هه مٿان همزو) |
6 |
06D5 |
ە (هه جھڙو ڏسجندڙ عربي اَي) |
7 |
06FF |
ۿ (عربي اکر هه ٽوپيءَ ساڻ) |
ڪمپيوٽر تي سنڌي ٽيڪسٽ جي داخلا ۾ ”هـ“ جو اکر ڇھن جايُن تي استعمال ۾ اچي ٿو: i) لفظن جي شروع ۾ ۽ وچ ۾ هـ جو اکر داخل ڪرڻ لاءِ، ii) زنانه نالن جي پڇاڙيءَ ۾، iii) هڪ اکرا لفظ، iv) ڪن صفت لفظن جي پڇاڙيءَ ۾، v) ”جهه“، ”گهه“، ۽ ”هه“ سان ختم ٿيندڙ لفظن جي پڇاڙيءَ ۾، ۽ vi) سنڌي اکر ”جھ“ ۽ ”گھ“ لکڻ لاءِ. انهن ڇھن ئي مصرفن سان جيڪي مسئلا لاحق آهن، تن تي بحث هيٺ ڪجي ٿو.
پھرين مصرف جا مثال ”هڏو“ ۽ ”هاٿي“ جھڙا لفظ آهن. ان ۾ جيتوڻيڪ پردي تي صورت اڪثر فانٽس ۾ ساڳي رهي ٿي، پر اهو عين ممڪن آهي ته مختلف فانٽ جوڙيندڙ يونيڪوڊ جا مختلف ڪوڊ پوائينٽس استعمال ڪن. تنھنڪري متفرق فانٽس ۾ جيتوڻيڪ پردي تي ”هڏو“ ۽ ”هاٿي“ جھڙا لفظ ڀلي هڪجھڙا نظر اچن، پر ڪمپيوٽر ۾ انهن جي نمائندگي يونيڪوڊ جي مختلف ڪوڊ پوائنٽس سان ٿيل ٿي سگهي ٿي؛ ڇاڪاڻ ته هر منطقگر Software Developer ۽ فانٽ ڊيولپر مختلف ڪوڊ پوائينٽس استعمال ڪري ٿو.
ٻين مصرف جا مثال ”رضيه“، ”رخسانه“، ۽ ”راحيله“ جھڙا زنانه نالا آهن. ڪمپيوٽر ۽ انٽرنيٽ تي پاڻ کي اهي نالا ”رضيه“، ”رخسانه“، ۽ ”راحيله“ جي صورت ۾ به نظر ايندا آهن. ماضيءَ ۾ انهن نالن کي ”رضيه“، ”رخسانه“، ۽ ”راحيله“ ئي لکبو هو، جڏهن ته ڪي مانهو انهن کي ”رضيا“، ”رخسانا“، ۽ ”راحيلا“ ڪري به لکندا هئا.
ٽين مصرف جا مثال سنڌي لفظ ”بِه“، ”ٻَه“، ”ٽِه“، ”تَه“، "نَه" آهن، جيڪي هڪڙي ئي اکر تي ٻڌل آهن. انهن کي ڪمپيوٽر جي سنڀار ۾ ساڳين اکرن جي اڪيلين صورتن مطلب ته ”ب“، ”ٻ“، ”ت“، ۽ ”ن“ کان ڌار نمائندگي ملڻ گهرجي، ته جيئن انهن کي پردي تي به ڌار طريقي سان نمائي سگهجي. انهن کي به ٽائيپ ڪرڻ لاءِ به انهن جي پڇاڙيءَ ۾ جدول 2 ۾ ڏنل ”هـ“ جي ڇهن ڪوڊپوائينٽس مان ڪا هڪ ڪوڊ پوائينٽ استعمال ٿئي ٿي. فانٽ تي دارومدار رکي ٿو ته اهي پاڻ کي پردي تي ڪيئن ٿا نظر اچن. تنھنڪري اهي پاڻ کي ڪڏهن ڪڏهن ”بِه“، ”ٻَه“، ”ٽِه“، ”تَه“، ”نَه“ به نظر ايندا آهن.
چوٿين مصرف جا مثال ”مردانه“ ۽ ”زنانه“، ”ظالمانه“ وغيره آهن. انهن کي به خالص ڪاغذ جي دور ۾ ”مردانه“، ”زنانه“، ۽ ”ظالمانه“ ئي ڪري لکبو هو. ٻنهي صورتن ۾ ڪمپيوٽر تي ٽائيپ ڪندي انهن لفظن جي پڇاڙيءَ ۾ جدول 2 ۾ ڏنل ”هـ“ جي ڪا نه ڪا ڪوڊ پوائينٽ لڳائجي ٿي.
”هه“، ”جھه“، يا ”گهه“ تي ختم ٿيندڙ سنڌي لفظن جھڙوڪ ”پرواهه“، ”شاهه“،
”گاهه“، ”راهه“، ”سمجھه“، ۽ ”سگهه“ جي پڇاڙيءَ ۾ به ”هـ“ جي ڪا نه ڪا ڪوڊ پوائينٽ استعمال ٿئي ٿي. ڪڏهن ڪڏهن اهڙا لفظ پردي تي ”پرواهه“، ”ساهه“، ”شاهه“، ”گاهه“،
”راهه“، ”سمجھه“، ۽ ”سگهه“ جيان نظر ايندا آهن. ٻه ٻه ”هـ“ ڏسندي، ڪيترا ٽائيپسٽ انهن لفظن ۾ ”پرواه“، ”ساه“، ”شاه“، ”گاه“، ۽ ”راه“ جي صورت ڏيڻ ئي پسند ڪندا آهن. تنھنڪري اهڙا لفظ پردي ۽ ڪاغذ تي مختلف صورتن ۾ ظاهر ٿين ٿا ۽ ڳڻپيوڪر جي سنڀار Memory ۾ به مختلف ڪوڊ سان سانڍيل ٿين ٿا.
ڇھين مصرف جا مثال اهي لفظ آهن جن ۾ ”جھ“ يا ”گھ“ جا اکر اچن ٿا، جھڙوڪ ”جهرڪ“، ”جهونو“، ”گھرو“ وغيره. ان جو سبب اهو آهي جو توڻي جو اهي ٻه اکر معياري سنڌي الف بي ڌار اکرن جي حيثيت رکن ٿا، يونيڪوڊ ۾ انهن کي پنھنجي تختيءَ ۾ شامل نه ڪيو آهي. ان جو سبب شايد اهو ئي آهي جو جڏهن يُونيڪوڊ تي ڪم هلي رهيو هو، تڏهن سنڌي زبان جي معياري رمز ڪٿي به رجسٽر ٿيل نه هئي. ان وقت ڪيترين ئي ٻولين جون معياري رمزون نه رڳو معيارسازيءَ جي بينالاقوامي اداري ISO وٽ رجسٽر ٿيل هيون، بلڪه انهن کي ڪيترا ئي منطقگر Software Developers پنھنجي ويب برائوزرس يا ٻي منطقگريءَ Software۾ شامل ڪري چڪا هئا. اڄ به ڪيترا ئي انٽرنيٽ برائوزر آءِ ايس او 8859 معيار هيٺ رجسٽر ٿيل رمزُن کي هٿي وٺائن ٿا. سنڌي زبان جي غير عربي فارسي اکرن جھڙوڪ ٻ، ڀ، ٿ، ٽ، ٺ، ڇ، ڄ، ڃ، ڏ، ڳ، ڱ، ڙ، ڻ، وغيره کي يونيڪوڊ ۾ ان ڪري جاءِ ملي وئي جو اهي اکر هندستان سرڪار وٽ رجسٽر ٿيل پرسو عربڪ اسڪرپٽ فار انفارميشن انٽرچينج (پاسڪِي) PASCII نالي رمز ۾ شامل هئا [7]. جيئن ته پاسڪِي ۾ به ”جھ“ ۽ ”گھ“ جا اکر شامل نه هئا تنھنڪري يونيڪوڊ ۾ به انهن کي جاءِ ملي نه سگهي. ياد رهي ته اردو لپيءَ ۾ ڪنھن به وسرڳ آواز لاءِ ڌار اکر موجود نه آهي. پاسڪِي رمز تيار ڪندي به هندستاني ماهرن آڏو اردوءَ جي حيثيت حاوي رهي، ۽ هنن ”جھ“ ۽ ”گھ“ جي ظاهري صورت کي ڏسندي انهن کي ڌار اکر واري حيثيت ڏئي نه سگهيا. نتيجتاً، يونيڪوڊ ۾ به ”جھ“ ۽ ”گھ“ ڌار اکرن جي حيثيت ۾ شامل نه آهن.
يُونيڪوڊ ۾ ”جھ“ ۽ ”گھ“ جي غير موجودگيءَ سبب، يونيڪوڊ کي استعمال ڪندي سنڌي زبان کي ڪمپيوٽر ۾ لکندڙ فرد مجبوراً ترتيبوار ”ج“
۽ ”گ“ جي پٺيان ”ھ“ جو اکر لڳائين ٿا. تاهم فانٽس سنڌي ٻولي اختياريءَ طرفان فانٽس ڊيولپرس يا ٻي منطقگري (Software) جوڙيندڙن لاءِ مخصوص هدايتون جاري نه ڪيل آهن ته سنڌيءَ ۾ ڪھڙي استعمال لاءِ ڪھڙي ڪوڊ پوائينٽ استعمال ڪرڻي آهي. تنھنڪري مختلف منطقگر انهن مان مختلف ڪوڊن جو استعمال ڪندا رهيا آهن. نتيجتاً معيار طَي نه ٿي سگهيو آهي ۽ سنڌي ٻوليءَ لاءِ جوڙيل مختلف ايپس Apps ۾ ڪمپيٽِيبِلِٽِيءَ Compatibility جا مسئلا پيدا ٿي پيا آهن.
هر زبان وانگي سنڌيءَ ۾ ڪي آواز ڳالهائجن ٿا، جن لاءِ ڌار اکر موجود نه آهي. انهن ۾ وسرڳ آواز شامل آهن، جھڙوڪ ڙهه، لهه، مهه، نهه، ڻهه [12]. انهن آوازن جو تحريري اظھار ٻن اکرن کي ملائي ڪرڻ آسان هو، تنھنڪري انهن لاءِ ڌار اکر يا نشاني رکڻ ضروري نه هو ۽ معياري لپيءَ ۾ شامل نه ڪيو ويو. ياد رهي ته انهن جي ابتڙ، سنڌي صورتخطيءَ ۾ ڪيترن ئي وسرڳ آوازن لاءِ ڌار اکر شامل آهن، جھڙوڪ ڀ، ٿ، ٺ، جھ، ک، گھ، ۽ ڦ. انهن جي شامل هجڻ جو يقيناً علمي سبب موجود آهي. ڪن سنڌي ماڻهن ڏيڍ سَو ورهين کان معيار بڻيل سنڌي الف بي کي نظر انداز ڪندي نه رڳو ”ڪلهه“، ”ملهه“، ۽ ”سنهو“ جھڙن لفظن کي
”ڪلھو“، ”ملھ“، ۽ ”سنھو“ ڪري لکيو آهي ۽ بلڪه ان غلط هِجي لاءِ مُھمجوئي پڻ ڪئي آهي [11]. ان غلط مُھمجوئيءَ جا نه رڳو منفي اثر پيا آهن بلڪه يونيڪوڊ ڪنساٽيئم وٽ ان سان مونجھارو وڌيو آهي، جنھن سبب جها ”جھ“ ۽ گهاف ”گھ“ جي اکرن لاءِ ڌار ڪوڊ پوائينٽس تفويض ٿي نه سگهيون آهن. جيتوڻيڪ SIL International جي طرفان جي طرفان Lorna Priest Evans يونيڪوڊ ڪنساٽيئم جو ڌيان ”هـ“ جي مختلف ڪوڊ پوائينٽس سبب پيدا ٿيندڙ مونجھاري ڏانھن ڇڪايو آهي [13]، پر هن ان معاملي کي اهو چئي ويتر منجهائي ڇڏيو آهي ته سنڌيءَ ۾ جھاءِ ”جھ“ ۽ گهاف ”گھ“ جا ڌار اکر موجود نه آهن. ان جو ٻيو مثال نسبتاً تازو شايع ٿيل مضمون آهي [14]، جنھن ۾ دعويٰ ٿيل آهي ته سنڌيءَ ۾ ”جھ“ ۽ ”گھ“ جا ڌار اکر موجود نه آهن. ياد رهي ته جيتوڻيڪ سنڌي ٻوليءَ ۾ ”ڙھ“، ”لھ“، ”مھ“، ”نھ“، ۽ ”ڻھ“ جا آواز ضرور موجود آهن، پر معياري سنڌي لپيءَ ۾ انهن لاءِ ڌار اکر مختص نه آهن. تنھنڪري انهن کي ”ڙ“، ”ل“، ”م“، ۽ ”ن“ جي پٺيان سادي ”هـ“ لڳائي ئي لکڻ گهرجي. ايئن دنيا جي ڪيترين ئي لپين ۾ ٿيندو آهي. جھڙوڪ انگريزي ٻوليءَ ۾ ”چ“، ”ش“، ”ڱ“، ۽ ”ژ“ جا آواز موجود آهن، پر انگريزي معياري الفابيٽ ۾ انهن لاءِ ڪو ڌار اکر موجود نه آهي [15].
حل ۽ نتيجا
مٿي نشاندهي ڪيل مسئلن جو حل آسان آهي. سنڌي زبان جي ڏيڍ صدي پراڻي معياري الف بي کي آڌار بڻائيندي، سنڌي ٻولي اختياريءَ کي سنڌي زبان جي معياري رمز تيار ڪري پڌري ڪرڻي پوندي ۽ پھرين مرحلي طور ان کي بحيثيت معيار جي، پاڪستان جي معيارسازيءَ واري قومي اداري Pakistan Standards and Quality Control (PSQCA) Authority وٽ ان کي رجسٽر ڪرائڻو پوندو. ڇاڪاڻ ته معيارسازيءَ جي بينالاقوامي اداري ISO وٽ پاڪستان جي نمائندگي PSQCA جو ادارو ڪري ٿو. تنھن کان پوءِ ساڳي معيار کي معيارسازيءَ جي عالمي اداري ISO وٽ رجسٽر ڪرائيندي ان کي ISO-10646 جو حصو بڻائڻو پوندو. ان کان سواءِ سنڌي زبان جي معياري رمز کي وٽ به رجسٽر ڪرائڻو پوندو جيئن تاملي ٻوليءَ جي معياري رمز TSCII رجسٽر ٿيل آهي [16]، ته جيئن باهمڄار Internet جي MIME معيار ذريعي سنڌيءَ ۾ اِي ميلز ڪري سگهجن. ان سان سنڌي اکرن ”جھ“ ۽ ”گھ“ کي ڌار ڪوڊپوائينٽس ملي وينديون.
جدول 3 سنڌي زبان لاءِ مجوزه رمز تختي ڏيکاري ٿي، جنھن کي سنڌي ٻولي اختياري صلاح مشوري کان پوءِ پاڪستان جي معيارسازيءَ واري اداري ڏانهن رجسٽر ڪرڻ لاءِ اماڻي سگهجي ٿي.
جدول 3: سنڌي زبان لاءِ مجوزه رمز تختي
|
|
|
|
B8 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
|
|
|
|
B7 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
|
|
|
|
B6 |
0 |
0 |
1 |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
1 |
1 |
|
|
|
|
B5 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
B4 |
B3 |
B2 |
B1 |
|
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
0 |
0 |
0 |
0 |
0 |
|
|
SP |
0 |
@ |
P |
` |
p |
|
|
NBSP |
ث |
ر |
گ |
|
٠ |
0 |
0 |
0 |
1 |
1 |
|
|
! |
1 |
A |
Q |
A |
q |
|
|
ٖ |
پ |
ڙ |
ڳ |
|
١ |
0 |
0 |
1 |
0 |
2 |
|
|
" |
2 |
B |
R |
b |
r |
|
|
َ |
ج |
ز |
گھ |
ژ |
٢ |
0 |
0 |
1 |
1 |
3 |
|
|
# |
3 |
C |
S |
C |
s |
|
|
ِ |
ڄ |
س |
ڱ |
|
٣ |
0 |
1 |
0 |
0 |
4 |
|
|
$ |
4 |
D |
T |
d |
t |
|
|
ُ |
جھ |
ش |
ل |
|
۴ |
0 |
1 |
0 |
1 |
5 |
|
|
% |
5 |
E |
U |
E |
u |
|
|
ً |
ڃ |
ص |
م |
۾ |
٥ |
0 |
1 |
1 |
0 |
6 |
|
|
& |
6 |
F |
V |
F |
v |
|
|
ٰ |
چ |
ض |
ن |
ں |
٦ |
0 |
1 |
1 |
1 |
7 |
|
|
' |
7 |
G |
W |
g |
w |
|
|
آ |
ڇ |
ط |
ڻ |
|
٧ |
1 |
0 |
0 |
0 |
8 |
|
|
( |
8 |
H |
X |
h |
x |
|
|
ا |
ح |
ظ |
و |
|
٨ |
1 |
0 |
0 |
1 |
9 |
|
|
) |
9 |
I |
Y |
i |
y |
|
|
ب |
خ |
ع |
هـ |
|
٩ |
1 |
0 |
1 |
0 |
10 |
|
|
* |
: |
J |
Z |
j |
z |
|
|
ٻ |
د |
غ |
ء |
۽ |
× |
1 |
0 |
1 |
1 |
11 |
|
|
+ |
; |
K |
[ |
k |
} |
|
|
ڀ |
ڌ |
ف |
ي |
ى |
؛ |
1 |
1 |
0 |
0 |
12 |
|
|
، |
< |
L |
\ |
l |
| |
|
|
ت |
ڏ |
ڦ |
|
ڤ |
، |
1 |
1 |
0 |
1 |
13 |
|
|
- |
= |
M |
] |
m |
{ |
|
|
ٿ |
ڊ |
ق |
|
|
|
1 |
1 |
1 |
0 |
14 |
|
|
. |
> |
N |
^ |
n |
~ |
|
|
ٽ |
ڍ |
ڪ |
|
|
|
1 |
1 |
1 |
1 |
15 |
|
|
/ |
؟ |
O |
_ |
o |
|
|
|
ٺ |
ذ |
ک |
|
|
|
جدول 3 ۾ ڏيکاريل اڌ دم Comma ۽ واڪ جي نشاني Semicolon سنڌيءَ وارا نه پر عربيءَ وارا آهن. سنڌي فانٽس جوڙيندڙن هميشه سنڌيءَ بجاءِ عربي نشانيون ئي استعمال ڪندا اچن. ياد رهي ته SIL International جي طرفان يونيڪوڊ ٽيڪنيڪل ڪاميٽيءَ وٽ اهڙي عرضي جمع ٿيل آهي ته سنڌي اڌ دم ۽ واڪ جي نشانيءَ لاءِ ڪوڊ پوائينٽس مختص ڪيا وڃن [17].
تنھن کان سواءِ سنڌي ٻولي اختياريءَ کي عورتاڻن نالن جي معياري لکت لاءِ به سفارشون تيار ڪري عام ڪرڻيون پونديون ته جيئن انهن نالن جي داخلا NADRA جي قومي اعدادخاني National Database ۾ به معياري صورت اختيار ڪري سگهي ته ٻي سموري لکپڙهه ۾ به. منھنجي راءِ ۾ زنانه نالن، ”مردانه“، ”ظالمانه“ جھڙن صفت لفظن،
۽ ”وغيره“ جھڙن عربيءَ کان اڌاريل لفظن جي پڇاڙيءَ ۾ ”هـ“ جي ساڳي ئي ڪوڊ پوائينٽ يعني 06C1 استعمال ٿيڻ گهرجي، جيڪا گول "هـ" آهي.
هڪ اکرا سنڌي لفظ جھڙوڪ ”به“، ”ٻه“، ته، ۽ ”نه“ اصولاً ”هـ“ جو اکر نه ٿا رکن. تنھنڪري انهن جي لاءِ مختلف طريقا اختيار ڪري سگهجن ٿا. منھنجي راءِ ۾ اهڙن لفظن ۾ ”هـ“ جي ڪا به ڪوڊپوائينٽ استعمال نه ڪرڻ گهرجي. اهڙن لفظن کي لکڻ لاءِ ب، ٻ، ت، ۽ ن جي پٺيان يونيڪوڊ جي ڪوڊپوائينٽ 200C، ۽ ان پٺيان 0020 يعني عام وٿيءَ SPACE جي ڪوڊ پوائينٽ استعمال ڪرڻ گهرجي. ڪوڊپوائينٽ 200C دراصل Zero Width Non-Joiner (ZWNJ) چوائيندو آهي، ۽ ڪنھن به سنڌي ڪِي بورڊ جو لازمي جُز آهي. اهو تڏهن استعمال ٿيندو آهي جڏهن پاڻ ”شمسالدين“ جھڙن نالن ۾ ”س“ کي ”الف“ سان ملائڻ نه چاهيندا آهيون. مطلب ته پاڻ چاهيندا آهيون ته ”س“
جو اکر پنھنجي پڇاڙيءَ واري صورت ۾ ۽ الف جو اکر پنھنجي اڪيلي صورت ۾ ئي پردي تي ظاهر ٿئي. ساڳيءَ ريت ”جھ“، ”گھ“، ۽ ”هه“ جي اکرن تي ختم ٿيندڙ لفظن جھڙوڪ ”سمجهه“، ”سگهه“، ۽ ”شاهه“ جي پٺيان به ساڳي ئي ڪوڊ پوائينٽ 200C يعني ZWNJ، ۽ ان پٺيان عام وٿيءَ واري ڪوڊپوائينٽ 0020 لڳائڻ گهرجي ته جيئن اهڙن لفظن جي پڇ ۾ لاڳاپيل اکرن جي پڇاڙيءَ واري صورت يعني ”جهه“، ”گهه“ ۽ ”هه“
کي ظاهر ڪري سگهجي. اهڙي معيارسازيءَ جي نتيجي ۾ سنڌي ٽيڪسٽ کي برقياتي ذريعن ۾ سانڍڻ Store، پارمڪاري transmission، ۽ پردازڪاري Processing ۾ سھنجائي پيدا ٿيندي ۽ سنڌي زبان لاءِ مصنوعي ذهانت واريون ايپس سرجڻ جي راهه هموار ٿيندي. ان کان سنڌيءَ ۾ برقياتي لغتون ٺاهڻ، ۽ موجوده لغتن کي وڌائن توڙي انهن جي استعمال ۾ آساني پيدا ٿيندي.
ماحاصل Conclusion
سنڌي ٻوليءَ جو بااختيار ادارو هڪڙو حتمي اکر ميڙ Character Set مشتھر ڪري ۽ آءِ ايس او وٽ معياري رمز Standard Code طور رجسٽر ڪرائڻ جي ضرورت آهي ته جيئن سنڌي ٻوليءَ کي پنھنجي منطقگري (Software) ۾ شامل ڪندڙ هر منطقگر Software Developer ان معيار جي پاسداري ڪرڻ جو پابند ٿي سگهي. جيتوڻيڪ هن وقت ڪمپيوٽر ۽ انٽرنيٽ تي سنڌي زبان ۾ ڄاڻ جي ڏي وٺ تواتر سان ٿي رهي آهي، ان هوندي به اڃا تائين معيارسازيءَ جا ڪيترا ئي مونجهارا موجود آهن، جن سبب پردي تي ۽ ڪاغذ مٿان سنڌي ٽيڪسٽ جي نماوَ ۾ اهڙيون صورتون ظاهر ٿينديون رهن ٿيون جيڪي معياري صورتن کان هٽيل آهن، يا جن تي نااتفاقي رهندي اچي. انهن مونجهارن کي ختم ڪرڻ لاءِ سنڌي اکرن جي معياري رمز جي رجسٽريشن ۽ يُونيڪوڊ جي معياري استعمال لاءِ سفارشون مرتب ڪرڻ جي ضرورت آهي. اهي ٻيئي قدم صرف سنڌي ٻولي اختياري ئي کڻي سگهي ٿي.
حوالا
- Iyengar, A. (2021). A diachronic analysis of Sindhi multiscriptality. Journal of Historical Sociolinguistics, 7(2), 207-241.
- Wadhwa, S. (2023). The question of script for Sindhi in India: reflections on postcolonial grammatology. Interventions, 1-16.
- Kumbhar, Shabeer. (2019). Orthographic complexities and Pre-requisites in Sindhi composing. Sindhi Boli, 12(1), 83-102.
- Comité Européen de Normalisation and Europäisches Komitee für Normung. "Guide to the use of character set standards in Europe." (1999).
- Indian Standard - Indian Script Code for Information Interchange – ISCII Bureau of Indian Standards Manak Bhavan, 9 Bahadur Shah Zafar Marg New Delhi 110 002, https://www.services.bis.gov.in/php/BIS_2.0/bisconnect/ knowyourstandards/Indian_standards/isdetails_mnd/4722
- Perso-Arabic Script Code for Information Interchange, Centre for Development of Advanced Computing, http://parc.cdac.in/PASCII_V10.pdf
- Unicode Consortium (2011). The Unicode Standard-Version 6.0–Core Specification-. Unicode Consortium.
- Keiser, J., & Lemire, D. (2021). Validating UTF‐8 in less than one instruction per byte. Software: Practice and Experience, 51(5), 950-964.
- Iyengar, A. (2018). Variation in Perso-Arabic and Devanāgarī Sindhī orthographies: An overview. Written Language & Literacy, 21(2), 169-197.
- Unicode Standard ver 16.0: Arabic Range: 0600–06FF. https://www.unicode. org/charts/PDF/U0600.pdf
- Kumbhar, Shabeer. (2018). Limitations of Usage of Aspirated Letters and their Solutions. Sindhi Boli, 11(1), 19-42.
- جتوئي، علي نواز حاجن خان، (1983) سنڌي زبان ۽ علم صوتيات، (ڇاپو ٻيون)، انسٽيٽيوٽ آف سنڌالاجي
- Lorna Priest Evans. (2021). Regarding the Sindhi Heh. SIL International. https://www.unicode.org/L2/L2022/22052-regarding-sindhi-heh.pdf
- Doctor, R., Gutkin, A., Johny, C., Roark, B., & Sproat, R. (2022). Graphemic normalization of the Perso-Arabic script. arXiv preprint arXiv:2210.12273.
- Ogden, R. (2017). Introduction to English phonetics. Edinburgh university press.
- Manivannan, Mani M. Very long-term digital preservation and archival strategies for Tamil documents.
- Request for Annotations for Sindhi and Behdini Kurdish, Lorna Priest Evans (SIL International), https://www.unicode.org/L2/L2020/20288-kurdish-sindhi-annot.pdf