#نرمافزارآزاد — Public Fediverse posts
Live and recent posts from across the Fediverse tagged #نرمافزارآزاد, aggregated by home.social.
-
پروتکل ماتریکس به زبان ساده و نحوه استفاده از آن
راهنمای ساده استفاده از پروتکل ماتریکس ماتریکس چیست؟ ماتریکس یک پروتکل آزاد و غیرمتمرکز برای ارتباطات لحظهای است که شبیه به تلگرام یا واتساپ کار میکند، اما با تفاوت اساسی: هیچ شرکتی مالک آن نیست و دادههای شما تحت کنترل خودتان است. این پروتکل به شما امکان میدهد پیام […] -
پروتکل ماتریکس به زبان ساده و نحوه استفاده از آن
راهنمای ساده استفاده از پروتکل ماتریکس ماتریکس چیست؟ ماتریکس یک پروتکل آزاد و غیرمتمرکز برای ارتباطات لحظهای است که شبیه به تلگرام یا واتساپ کار میکند، اما با تفاوت اساسی: هیچ شرکتی مالک آن نیست و دادههای شما تحت کنترل خودتان است. این پروتکل به شما امکان میدهد پیام […] -
پروتکل ماتریکس به زبان ساده و نحوه استفاده از آن
راهنمای ساده استفاده از پروتکل ماتریکس ماتریکس چیست؟ ماتریکس یک پروتکل آزاد و غیرمتمرکز برای ارتباطات لحظهای است که شبیه به تلگرام یا واتساپ کار میکند، اما با تفاوت اساسی: هیچ شرکتی مالک آن نیست و دادههای شما تحت کنترل خودتان است. این پروتکل به شما امکان میدهد پیام […] -
پروتکل ماتریکس به زبان ساده و نحوه استفاده از آن
راهنمای ساده استفاده از پروتکل ماتریکس ماتریکس چیست؟ ماتریکس یک پروتکل آزاد و غیرمتمرکز برای ارتباطات لحظهای است که شبیه به تلگرام یا واتساپ کار میکند، اما با تفاوت اساسی: هیچ شرکتی مالک آن نیست و دادههای شما تحت کنترل خودتان است. این پروتکل به شما امکان میدهد پیام […] -
گرافیک و گنو لینوکس
در گذشته شاید گنو/لینوکس در مبحث گرافیک حرف خاصی واسه گفتن نداشت، ولی با گذشت زمان این ایراد به مراتب رفع شد. تو این پست وبلاگ میخوام راهکارهایی که خودم در روزمره استفاده میکنم رو بنویسم. اینکاسکیپ بدون شک یکی از بهترین برنامههای طراحی وکتور است! تمام نیازهای مربوط به […] -
یک سال در پارچ
یک سال پیش، همین موقعها بود که انتخابات پارچ برگزار شد و از لطف جامعه من با ۵۳٪ آرا به عنوان راهبر انتخاب شدم. این پست خلاصه روایت این یک سال است. کوه مشکلات! وقتی سمت راهبری رو بر عهده گرفتم، پارچ درگیر مسائل ریز و درشت زیادی بود؛ از حمله ترولها (که با وجود کم شدن، همچنان […] -
تو این وضع بازار مرورگرهای جهانی چه میشه کرد؟
قبلا در مورد مهاجرت به فایرفاکس و تحریم مرورگرهای بر پایه کرومیوم نوشتم؛ قصد تکرار ندارم و میخوام چند راهحل که خودم در زندگی روزمره استفاده میکنم رو بنویسم، شاید بدرد کسی خورد. مشکلات یسری از وبسایتها از مرورگرهای برپایه فایرفاکس کاملا گذر کردن و این خیلی […] -
گروه کاربران لینوکس
فلسفه LUG (Linux User Group) یا گروه کاربران لینوکسلاگها اجتماعات محلی و داوطلبانهای از کاربران، علاقهمندان و حرفهایهای لینوکس و نرمافزار آزاد/متنباز هستند. فلسفه اصلی آنها معمولاً حول اصول زیر شکل میگیرد: اشتراک دانش و آموزش: کمک به یادگیری گنو/لینوکس و نرمافزار […] -
گروه کاربران لینوکس
فلسفه LUG (Linux User Group) یا گروه کاربران لینوکسلاگها اجتماعات محلی و داوطلبانهای از کاربران، علاقهمندان و حرفهایهای لینوکس و نرمافزار آزاد/متنباز هستند. فلسفه اصلی آنها معمولاً حول اصول زیر شکل میگیرد: اشتراک دانش و آموزش: کمک به یادگیری گنو/لینوکس و نرمافزار […] -
گروه کاربران لینوکس
فلسفه LUG (Linux User Group) یا گروه کاربران لینوکسلاگها اجتماعات محلی و داوطلبانهای از کاربران، علاقهمندان و حرفهایهای لینوکس و نرمافزار آزاد/متنباز هستند. فلسفه اصلی آنها معمولاً حول اصول زیر شکل میگیرد: اشتراک دانش و آموزش: کمک به یادگیری گنو/لینوکس و نرمافزار […] -
مقایسه LibreOffice و Microsoft Office 365
در اینجا دلایل اصلی که چرا برخی افراد LibreOffice را بهتر میدانند، آورده شده است: ۱. کاملاً آزاد (Free & Open Source) این بزرگترین مزیت LibreOffice است. آزادی نرمافزار: شما مالک نرمافزار هستید. هیچ شرکت پشت آن نیست که تصمیم بگیرد مدل کسبوکار را تغییر دهد یا ویژگیهای خاصی را حذف کند. ۲. […] -
کدام توزیع گنو/لینوکس برای شروع مناسب است؟
در یک نگاه کلی: Parch GNU/Linux: برای کاربران پیشرفتهتر که به دنبال حداکثر عملکرد، جدیدترین نرمافزارها و استفاده از جدیدترین فناوریهای لینوکس هستند. LMDE: برای کاربران تازهکار یا متوسط که به دنبال پایداری فوقالعاده، سادگی و اطمینان هستند و میخواهند محیطی شبیه به […] -
مقایسه پروتکل ماتریکس با SimpleX
مقدمه: تمرکززدایی در ارتباطات هر دو پروتکل ماتریکس و سیمپلایکس با هدف ایجاد سیستمهای ارتباطی غیرمتمرکز، امن و مقاوم در برابر سانسور طراحی شدهاند. اما فلسفه طراحی، معماری و مبادلات (trade-offs) آنها به طور اساسی متفاوت است. بخش اول: پروتکل ماتریکس (Matrix) ماتریکس یک پروتکل […] -
مقایسه پروتکل ماتریکس با SimpleX
مقدمه: تمرکززدایی در ارتباطات هر دو پروتکل ماتریکس و سیمپلایکس با هدف ایجاد سیستمهای ارتباطی غیرمتمرکز، امن و مقاوم در برابر سانسور طراحی شدهاند. اما فلسفه طراحی، معماری و مبادلات (trade-offs) آنها به طور اساسی متفاوت است. بخش اول: پروتکل ماتریکس (Matrix) ماتریکس یک پروتکل […] -
مقایسه پروتکل ماتریکس با SimpleX
مقدمه: تمرکززدایی در ارتباطات هر دو پروتکل ماتریکس و سیمپلایکس با هدف ایجاد سیستمهای ارتباطی غیرمتمرکز، امن و مقاوم در برابر سانسور طراحی شدهاند. اما فلسفه طراحی، معماری و مبادلات (trade-offs) آنها به طور اساسی متفاوت است. بخش اول: پروتکل ماتریکس (Matrix) ماتریکس یک پروتکل […] -
چرا سیگنال جایگزین خوبی نیست؟
مشکل پس از افشای نظارت جهانی در سال 2013، یافتن یک پلت فرم پیام رسانی امن برای جایگزینی پیام های متنی برای همه فعالان امری ضروری شد. مشخص شد که آژانسهای اطلاعاتی ایالات متحده، کانادا، بریتانیا، استرالیا و نیوزلند (“Five Eyes“)، همراه با غولهای فناوری ایالات متحده مانند […] -
گوگلزدایی
چرا لازم است از سرویسهای گوگل استفاده نکنیم؟ به جای این سرویسها از چه جایگزینهایی استفاده کنیم؟
فرض کنید با برند پوشاک بزرگی آشنا میشوید که به شما لباسهایی با جنس مرغوب ولی مجانی عرضه میکند. این کمپانی، نه فقط لباس، بلکه کفش، عینک و زیورآلات شما را هم به رایگان تأمین میکند. آیا این فرصت سخاوتمندانه را رد میکنید؟
در عوض، ایرادی که این کالاها دارند، این است که اطلاعات شما را جمع میکند و به شرکت سازندهشان میفرستند. عینک شما هر چیزی که میبینید را برای سازندهاش میفرستد. کفشهایتان و شرکت سازندهشان میدانند که چه موقع به کجا میروید. پیراهنتان میفهمد که چه چیزی میخورید و کی از استرس عرق میکنید و لباس زیرتان حتی از این هم بیشتر میداند!
دنیای دیجیتال از این شرکتها پر است. گوگل و فیسبوک بیشترین سهم را در سوءاستفاده از اطلاعات کاربران دارند. (اگر فکر میکنید که اطلاعات مهمی ندارید و لو رفتن آنها ایرادی ندارد، این نوشته و این یکی پاسخ شما را میدهد.)
برای خیلیها، اینترنت چیزی به جز گوگل نیست. برای آنها، ایمیل یعنی جیمیل، جستوجو یعنی گوگل، مرورگر وب یعنی گوگل کروم، سرویس ویدیو یعنی یوتیوب و… . جستوجوی گوگل معروفترین سرویس جستوجوی وب است و ظاهراً به خوبی کار میکند. یوتیوب، بزرگترین سرویس استریم ویدیوی جهان است که از شیر مرغ تا جان آدمیزاد در آن پیدا میشود. مرورگر گوگل کروم نزدیک به هفتاد درصد از بازار مرورگرهای وب را از آن خود کرده است. سیستمعامل اندروید که گوگل صاحب آن است، با بیش از دو میلیارد کاربر فعال، بزرگترین سیستمعامل موبایلی است. همهٔ این سرویسها به علاوهٔ شمار زیادی که نام برده نشد، رایگان، خوشساخت و باحال هستند؛ ولی ایرادی که دارند این است که آزاد نیستند.
علاوه بر نقض حریم خصوصی، گوگل متهم به فرار مالیاتی، سوءاستفاده و دستکاری در نتایج جستجو، استفاده از مالکیت معنوی دیگران، همکاری گوگل ارث با ارتش برای جاسوسی از کاربران، مصرف انرژی سرورهای آن و همچنین در مورد موضوعات سنتی تجارت مانند انحصار، محدودیت تجارت، وام گرفتن ایده و اتاق اکو ایدئولوژیک است. [ویکیپدیا]
در این نوشته قصد دارم روند گوگلزدایی خودم را با نام بردن از جایگزینهای سرویسهای گوگل معرفی کنم. برای من آزاد و متنباز بودن این سرویسها اهمیت زیادی دارد؛ به همین دلیل هم از سرویسهای مشابهی که فیسبوک، اپل، مایکروسافت و… ارایه میکنند، استفاده نمیکنم.
گوگلها و ناگوگلها
جستوجوی گوگل:
ناگوگلها: DuckDuckGo، Startpage، Swisscows و Searx
داکداکگو پیش پا افتادهترین سرویس جستوجوی وب است که به خوبی پاسخگوی نیازهای روزانه است. در داکداکگو همچنین اثری از سانسور و دستکاری نتایج وب نیست، کاری که گوگل متخصص در آن متخصص است. استارتپیج هم مشابه داکداکگو است اما با این تفاوت که نتایج گوگل را بالا میآورد و گزینههایی هم برای جستوجوی پیشرفته دارد.
گوگل کروم:
ناگوگلها: فایرفاکس، و Ungoogled Chromium
فایرفاکس پس از کروم در جایگاه دوم مرورگرهای پرطرفدار ایستاده است. مرورگری باسابقه که هم از کروم سبکتر است، هم آزاد است و هم کارهای کروم را به خوبی انجام میدهد.
بیشتر کد گوگل کروم، از پروژهٔ دیگر گوگل با نام کرومیوم میآید که متنباز است (متنباز با آزاد متفاوت است.) اپرا (که متنباز و آزاد نیست) به همراه بریو و Ungoogled Chromium که نسخهٔ گوگلزدایی شدهٔ کروماند نیز گزینههای مناسبیاند.
* اپرا آزاد و متن باز نیست ولی تجربهٔ خوبی است.
یوتیوب:
ناگوگلها: NewPipe، PeerTube و Invidus
پیرتیوب یک سرویس آزاد و امن استریم ویدیو است که به نظر من از یوتیوب بهتر هم هست؛ ولی مثل آپارات، نمیتوان تعداد زیادی ویدیو روی آن یافت و کاربران کمتری دارد (که منطقاً هم تقصیری ندارد!) به همین دلیل از نیوپایپ استفاده میکنیم. نیوپایپ نسخهٔ گوگلزدایی شدهای از یوتیوب است. علاوه بر این که حریم شخصی شما را به خطر نمیاندازد، میتوانید بدون تبلیغات ویدیوها را تماشا کنید و به راحتی آنها را دانلود کنید. همچنین از طریق نیوپایپ میتوانید به ساوندکلاود، پیرتیوب و CCCMedia نیز دسترسی داشته باشید.
جیمیل:
ناگوگلها: Tutanota
پروتونمیل یک سرویس ایمیل است که توسط دانشمندان سِرن و امآیتی طراحی شده و سرورهای آن در سوئیس میزبانی میشوند. هر دوی این سرویسها حس خوبی را به کاربر القا میکنند.
اندروید:
ناگوگلها: LineageOS و بسیاری دیگر
اندروید پروژهای متنباز است؛ به این معنی که میتوان به کدهای منبع آن دسترسی داشت و در صورت لزوم آنها را تغییر داد. به لطف این ویژگی میتوانید اندروید گوشی موبایل خود را با نمونههای آزاد آن جایگزین کنید: اندروید بدون گوگل و محدودیت. البته برای استفادهٔ مناسب از اندروید میبایستی MicroG یا Open Gapps را نصب کنید تا جایگزین Google Servises شوند.
پلی استور:
ناگوگلها: F-Droid و Aurora Store
اف-دروید مخزن نرمافزاری است که در آن میتوانید فقط نرمافزارهای آزاد بیابید. اگر میخواهید نرمافزارهای غیرآزاد نصب کنید، آرورا استور همان گوگل پلی استور است که گوگلزدایی و قشنگتر شده.
جیبورد (یا گوگل کیبورد):
ناگوگل: AnySoftKeyboard
انیسافتکیبورد بهترین جایگزین جیبورد است که به خوبی از زبان فارسی پشتیبانی میکند. صفحه کلید استاندارد فارسی باید از نیمفاصله پشتیبانی کند و حروف آن فارسی (و نه عربی) باشد که انیسافتکیبورد با بستهٔ پشتیبانی فارسی این ویژگی را دارد.
گوگل مپ و ویز:
ناگوگلها: OpenStreetMap
اپناستریتمپ که با نام OsmAnd برای اندروید منتشر میشود جایگزین بسیار خوبی برای گوگل مپ و ویز که سرویسهای گوگلاند است.
کیپ:
ناگوگل: Joplin
کیپ سرویس یادداشتبرداری گوگل است. جاپلین از کیپ بهتر است و علاوهٔ بر متنباز بود ویژگیهای بیشتری هم دارد.
اینها سرویسهایی بود که من استفاده میکنم. اگر سرویس گوگلی که استفاده میکنید در فهرست بالا نبود میتوانید یک فهرست بزرگ و جامع از گوگلها و ناگوگلها را در اینجا ببینید.
✍️: مایلو
#آزادی #افدروید #اندروید #پیرتیوب #جیمیل #دیگوگل #رام #گوگل #گوگلزدایی #ناگوگل #نرمافزارآزاد
-
آیا تا به حال به غل و زنجیر پنهانی که ممکن است با کمال میل در دنیای نرم افزار بر روی خود بستهاید فکر کردهاید؟ هر بار که از نرمافزار انحصاری استفاده میکنید، آزادی و کنترل خود را بر محاسبات خود به توسعهدهنده نرمافزار انحصاری برای توهم راحتی، امنیت یا آخرین ویژگیهای درخشان واگذار میکنید.
معامله فاوستی نرمافزار انحصاری
نرمافزار انحصاری یک معامله فاوستی است. این شامل قربانی کردن آزادی در قربانگاه عمل است. ما کنترل زندگی دیجیتال خود را در ازای راحتی، امنیت یا جدیدترین ویژگیهای درخشان تسلیم میکنیم. این بدان معناست که توانایی فهم، اصلاح یا به اشتراکگذاری نرمافزاری را که به آن تکیه میکنیم را کنار بگذاریم. این از دست دادن آزادی، فرسایش اساسی حقوق ما است، معاملهای که باید ما در آن مکث کنیم.
با نرمافزار آزاد، وضعیت متفاوت است. ما حق استفاده، مطالعه، اشتراک گذاری و اصلاح آن را در آنجا داریم. این به ما چهار آزادی اساسی می دهد:
- آزادی ۰: آزادی اجرای برنامه به طور دلخواه.
- آزادی ۱: آزادی مطالعه نحوه عملکرد برنامه و تغییر آن.
- آزادی ۲: آزادی توزیع مجدد نسخه ها تا بتوانید به دیگران کمک کنید.
- آزادی ۳: آزادی توزیع کپی از نسخههای اصلاح شده شما.
با نرمافزار آزاد، میتوانیم کنترل نرمافزار خود را در دست بگیریم و جهانی بسازیم که در آن نرمافزار به جای کنترل، آزاد میکند.
قدرت انجام هیچ کاری
ادموند برک، فیلسوف قرن هجدهم، اغلب به اشتباه نقل میشود که میگوید: «تنها چیزی که برای پیروزی شر لازم است این است که انسان های خوب هیچ کاری انجام ندهند.» در حالی که انتساب ممکن است نادرست باشد، اما این احساس درست است. در زمینه نرمافزارهای انحصاری، انفعال و تمایل ما به پذیرش وضعیت موجود، فرسایش آزادیهای ما را تقویت میکند.
اما لازم نیست اینگونه باشد. ما میتوانیم مسیر متفاوتی را انتخاب کنیم. ما میتوانیم نرم افزار آزاد را انتخاب کنیم. با انجام این انتخاب، این زنجیرهها را میشکنیم و خود را قدرتمند میکنیم و کنترل زندگی دیجیتال خود را در دست میگیریم.
در آغوش گرفتن آزادی
مهاجرت به نرمافزار آزاد ممکن است در ابتدا دلهرهآور به نظر برسد. اما این سفری است که ارزش آن را دارد. با شناسایی نرمافزار انحصاری فعلی شما و یافتن جایگزینهای آزاد شروع میشود. سپس، نوبت یادگیری استفاده از این ابزارهای جدید و انطباق با ویژگیهای آنها است. حرکت به سمت نرمافزار آزاد یک موضوع فنی نیست. یک امر اجتماعی و سیاسی است. هر قدم به سمت نرمافزار آزاد، گامی در جهت بازپس گیری آزادی و کنترل شما بر محاسباتتان است.
بنابراین، دفعه بعد که با یک انتخاب نرمافزاری مواجه شدید، لحظهای را به تأمل کردن اختصاص دهید. از خود بپرسید: «من با این تصمیم به چه کسی قدرت می دهم؟» انتخاب کنید که خودتان را قدرتمند کنید، نه توسعه دهنده نرمافزار را. آزادی را انتخاب کنید جامعه را انتخاب کنید این فقط در مورد نرمافزار نیست. این در مورد آیندهای است که ما می خواهیم بسازیم – آیندهای که در آن زندگی دیجیتالی ما واقعاً متعلق به ما باشد و ما قدرت کنترل آنها را داشته باشیم.
منبع Jxself
-
برخی ممکن است DRM را مدیریت «حقوق» دیجیتال بدانند، البته اصطلاح مدیریت «محدودیتها» دیجیتال دقیقتر است. به نظر میرسد که از آن به عنوان یک شر ضروری برای «حفاظت از حقوق سازندگان» و جلوگیری از به اصطلاح «piracy» یاد میشود، که نشان دهنده تفکری است که آنقدر پر از پروپاگاندا است که می تواند پست وبلاگ خود را داشته باشد. با این حال، من به عنوان یک مدافع آزادی نرم افزار، DRM را نقض اساسی حقوق ما و یک بیعدالتی اخلاقی میدانم.
DRM فقط دسترسی ما را به دستگاهها و رسانهها محدود نمیکند. نحوه استفاده و به اشتراک گذاری آنچه را که به درستی خریداری کردهایم، دیکته میکند. با ما به عنوان جنایتکاران بالقوه رفتار میکند و اگر جرأت کنیم DRM را بشکنیم و حقوق خود را پس بگیریم، ما را به زندان تهدید میکند. این فقط یک محدودیت نیست. این فرسایش سیستماتیک آزادیهای ما است.
در حالی که برخی ممکن است استدلال کنند که شکستن DRM غیرقانونی است، قانونی بودن اخلاق را تعیین نمیکند. قوانین میتوانند ناعادلانه، قدیمی یا اشتباه باشند. هنگام مواجهه با چنین قوانینی، درگیر شدن در نافرمانی مدنی، که امتناع مسالمت آمیز از پیروی از قوانین خاص است، نه تنها به یک حق بلکه به یک الزام اخلاقی تبدیل میشود. در مورد DRM، دور زدن این محدودیتها راهی برای بازپس گیری حقوق ما است.
شکستن DRM یک اقدام واکنشی است. در حالی که ما میتوانیم و باید آن را بشکنیم، راه دیگری برای مبارزه با DRM این است که موضعی فعال داشته باشیم و از کسانی که از آن استفاده نمیکنند حمایت کنیم. با انتخاب آگاهانه رسانههای بدون DRM، پیام قدرتمندی را به تامینکنندگان DRM میفرستیم مبنی بر اینکه اقدامات آنها غیرقابل قبول است.
مبارزه با DRM فقط در مورد مسائل فنی نیست. این یک نبرد اخلاقی برای روح عصر دیجیتال است. این در مورد تصمیم گیری است که آیا ما آیندهای میخواهیم که در آن زندگی دیجیتالی ما توسط فناوریهای محدود کننده کنترل شود یا آیندهای که در آن آزاد باشیم. پیامدهای اخلاقی این نبرد را نمیتوان اغراق کرد.
به عنوان یک مدافع آزادی نرمافزار، پاسخ روشن است. DRM از نظر اخلاقی غیرقابل قبول است و ما باید در هر مرحله در برابر آن مقاومت کنیم. از ناشرانی که به حقوق ما احترام می گذارند و از رسانههای بدون DRM حمایت میکنند، حمایت کنیم. یک نقطه شروع می تواند راهنمای FSF برای زندگی بدون DRM در defectivebydesign باشد. لطفاً در این مبارزه برای حقوق و آزادی های دیجیتال ما به من بپیوندید.
منبع Jxself
-
تا به حال به این فکر کردهاید که آیا واقعاً رایانه خود را کنترل میکنید؟ این سوالی است که اغلب مطرح نمیشود. ما دستگاههای خود را روشن میکنیم، برنامهها را اجرا میکنیم و با دنیای دیجیتال تعامل میکنیم، با این فرض که ما مسئول هستیم یا شاید حتی به این موضوع فکر نمیکنیم. اما این کنترلی که فکر میکنیم داریم، چیزی بیش از یک توهم نیست، یک جبهه که با دقت توسط نرمافزار انحصاری ساخته شده است.
نرمافزار انحصاری تحت پوشش محرمانه عمل میکند. عملکرد درونی آن پنهان است و کد منبع آن یک راز محافظت شده است که فقط برای توسعه دهندهای که آن را ساخته است قابل دسترسی است. این به طور مستقیم به عدم کنترل شما به عنوان کاربر معنی میشود. شما محدود هستید به دیدگاهها و قوانین توسعه دهنده؛ هرچی آنها بگویند. این فقط عدم کنترل نیست. این احساس به دام افتادن و تحت الحمایه بودن تصمیمات دیگران است.
بیایید این محدودیتها را تشریح کنیم و کنترلی را که از بین میبرند، آشکار کنیم:
1.محدودیت در استفاده: مجوزهای نرم افزار انحصاری ممکن است تعداد نصبها را محدود کند، استفاده تجاری، نوع سخت افزاری که می توانید آن را اجرا کنید، یا حتی نحوه استفاده از آن را به شما دیکته کند. برنامه تقویمی را تصور کنید که می گوید کلینیکهای سقط جنین نمیتوانند از آن برای برنامهریزی استفاده کنند. هر فعالیتی که باشد، ممکن است کسی در جایی مشکلی با آن پیدا کند. تنها پاسخ این است که ما نمیتوانیم چنین محدودیتهایی را برای استفاده مجاز کنیم. این اساساً آزادی شما را برای کنترل نرمافزار تضعیف میکند. تصور کنید ماشینی میخرید اما به شما گفته میشود که فقط میتوانید آن را در جادههای خاصی یا در ساعات خاصی از روز رانندگی کنید. چنین محدودیتهایی پوچ خواهد بود، با این حال به نظر میرسد بسیاری آنها را بدون تردید در نرمافزار میپذیرند.
2.محدودیت در اصلاح: تصور کنید میخواهید برنامهای را به گونهای تنظیم کنید که با نیازهای شما مطابقت داشته باشد، یک ویژگی اضافه کنید، یک باگ ناامیدکننده را برطرف کنید یا چیزی را که دوست ندارید حذف کنید. نرمافزار انحصاری در را به روی این امکان میبندد. شما مجبور هستید برای اجرای تغییرات به اولویتها و جدول زمانی توسعه دهنده تکیه کنید. این عدم کنترل به این معنی است که شما نمیتوانید نرمافزار را با گردش کار منحصر به فرد خود تطبیق دهید یا نیازهای خاصی را برطرف کنید. در عوض، متوجه میشوید که از توسعهدهندگان التماس میکنید: «لطفا، توسعهدهنده قادر متعال، لطفاً این تغییر را انجام دهید»، به این امید که ممکن است درخواستهای شما را بشنوند و آنها را شایسته توجه بدانند. این پویایی قدرت، شما را در موقعیتی مطیع قرار میدهد که تابع هوسهای شرکت است. شما در کنترل نیستید؛ شما مورد رحمت آنها هستید.
حتی اگر تصمیم دارید به برنامه نرمافزاری انحصاری دیگری مهاجرت کنید، فقط در حال تغییر ارباب هستید. شما هنوز نمیتونید از کنترل ذاتی که نرمافزار انحصاری اعمال میکند فرار کنید. شما در محدوده سیستمی باقی میمانید که منافع توسعهدهنده را بر آزادی کاربران ترجیح میدهد.
3.محدودیت در اشتراک گذاری: به اشتراک گذاری نرمافزار با یک دوست یا همکار با نرمافزار انحصاری به یک طناب محکم اخلاقی و قانونی تبدیل میشود. توانایی کمک به دیگران و همکاری آزادانه خفه میشود و محیطی از انزوا و وابستگی ایجاد میکند. تصور کنید نمیتوانید کتابی را به یک دوست قرض دهید یا دستور غذا را با همسایهای به اشتراک بگذارید. نرمافزار انحصاری موانع مشابهی را ایجاد میکند. این عدم اشتراک گذاری، همکاری و ایجاد جامعه را محدود میکند، کاربران را بیشتر منزوی و کنترل توسعه دهنده را تقویت میکند.
همانطور که در The Price of Convenience بحث شد، نرمافزار انحصاری میتواند افراد را با وعده به راحتی جذب کند. از پیش بستهبندی شده است، ظاهراً آماده استفاده از جعبه است. با این حال، این راحتی هزینه زیادی دارد – آزادی شما. شما برای همه چیز از بهروزرسانی گرفته تا رفع اشکال و هر چیز دیگری به توسعه دهنده وابسته میشوید. این وابستگی یک عدم تعادل عادلانه قدرت ایجاد میکند. توهم راحتی، واقعیت کنترل و وابستگی را میپوشاند.
فراتر از فرد: پیامدهای نرمافزار انحصاری بسیار فراتر از کاربران فردی است چون بر کل جامعه تأثیر میگذارد. چیزی که استفاده میکنید به دیگران نشان میدهد که مشکلی ندارد. هنگامی که مردم از برنامههایی مانند GitHub یا نمونه های دیگر استفاده میکنند که در آن نرم افزار انحصاری برای انجام هر کاری مورد نیاز است، شما فقط از آن استفاده نمیکنید، شما به گسترش آن کمک میکنید، موانعی ایجاد میکنید و قدرت را در دست توسعه دهنده متمرکز میکنید. مدارس و دانشگاهها به مراکزی برای آموزش مردم مبدل میشوند که توسط نرمافزارهای انحصاری کنترل میشوند و به آن وابسته هستند، و همچنین توانایی آنها را برای ارائه آموزش با کیفیت محدود میکنند. کنترل اعمال شده توسط نرمافزارهای انحصاری نیز نوآوری را خفه میکند و نابرابریهای اجتماعی را تشدید میکند. این فقط مربوط به شما نیست. این در مورد جامعهای است که ما در آن زندگی میکنیم و آیندهای که میخواهیم ایجاد کنیم.
چرا این مهم است؟ این یک مسئله فنی نیست، این یک اصل اخلاقی است. نرمافزار آزاد از اصول آزادی کاربر دفاع میکند. این به شما امکان میدهد تا نرمافزار خود را مطالعه، اصلاح و به اشتراک بگذارید. این محیطی را تقویت میکند که در آن کاربران کنترل محاسبات خود را در دست دارند. این چشم انداز جنبش نرمافزار آزاد است. من از شما میخواهم که این نکات را در نظر بگیرید و گامی در جهت استفاده از نرمافزار آزاد بردارید و از این طریق از جنبش حمایت کنید و کنترل زندگی دیجیتال خود را به دست آورید.
منبع Jxself
https://parsaranjbar.com/how-proprietary-software-controls-you/
-
در دورهمی ۲۳ام کرمهای کامپیوتر با جعفر فرقانلوژ توسعه دهنده پروژه موآ راجع به سرکس(searx) و خود پروژه موآ صحبت میکنیم. همچنین کمی هم راجع به توسعه قسمتهای مختلف موآ از جمله استفاده هوش مصنوعی و یادگیری ماشینی داخلش گفتگو خواهیم کرد.
⚠️ این دورهمی برخلاف دورهمیهای دیگه ساعت ۱۹ روز جمعه برگزار میشود و پیوند آن در تلگرام و ماتریکس اعلام خواهد شد.
-
در دورهمی ۲۳ام کرمهای کامپیوتر با جعفر فرقانلوژ توسعه دهنده پروژه موآ راجع به سرکس(searx) و خود پروژه موآ صحبت میکنیم. همچنین کمی هم راجع به توسعه قسمتهای مختلف موآ از جمله استفاده هوش مصنوعی و یادگیری ماشینی داخلش گفتگو خواهیم کرد.
⚠️ این دورهمی برخلاف دورهمیهای دیگه ساعت ۱۹ روز جمعه برگزار میشود و پیوند آن در تلگرام و ماتریکس اعلام خواهد شد.
-
در دورهمی ۲۳ام کرمهای کامپیوتر با جعفر فرقانلوژ توسعه دهنده پروژه موآ راجع به سرکس(searx) و خود پروژه موآ صحبت میکنیم. همچنین کمی هم راجع به توسعه قسمتهای مختلف موآ از جمله استفاده هوش مصنوعی و یادگیری ماشینی داخلش گفتگو خواهیم کرد.
⚠️ این دورهمی برخلاف دورهمیهای دیگه ساعت ۱۹ روز جمعه برگزار میشود و پیوند آن در تلگرام و ماتریکس اعلام خواهد شد.
-
در دورهمی ۲۳ام کرمهای کامپیوتر با جعفر فرقانلوژ توسعه دهنده پروژه موآ راجع به سرکس(searx) و خود پروژه موآ صحبت میکنیم. همچنین کمی هم راجع به توسعه قسمتهای مختلف موآ از جمله استفاده هوش مصنوعی و یادگیری ماشینی داخلش گفتگو خواهیم کرد.
⚠️ این دورهمی برخلاف دورهمیهای دیگه ساعت ۱۹ روز جمعه برگزار میشود و پیوند آن در تلگرام و ماتریکس اعلام خواهد شد.
-
تو دورهمی ۲۲ کرمهای کامپیوتر بالاخره سهراب عزیز میخواد برامون از لینوکس روی گوشی همراه بگه
دورهمیهای کرمهای کامپیوتر هر جمعه ساعت ۱۸
@sohrabbehdani
#دورهمی
#لینوکس
#لینوکسموبایل
#نرمافزارآزاد -
تو دورهمی ۲۲ کرمهای کامپیوتر بالاخره سهراب عزیز میخواد برامون از لینوکس روی گوشی همراه بگه
دورهمیهای کرمهای کامپیوتر هر جمعه ساعت ۱۸
@sohrabbehdani
#دورهمی
#لینوکس
#لینوکسموبایل
#نرمافزارآزاد -
تو دورهمی ۲۲ کرمهای کامپیوتر بالاخره سهراب عزیز میخواد برامون از لینوکس روی گوشی همراه بگه
دورهمیهای کرمهای کامپیوتر هر جمعه ساعت ۱۸
@sohrabbehdani
#دورهمی
#لینوکس
#لینوکسموبایل
#نرمافزارآزاد -
تو دورهمی ۲۲ کرمهای کامپیوتر بالاخره سهراب عزیز میخواد برامون از لینوکس روی گوشی همراه بگه
دورهمیهای کرمهای کامپیوتر هر جمعه ساعت ۱۸
@sohrabbehdani
#دورهمی
#لینوکس
#لینوکسموبایل
#نرمافزارآزاد -
تو دورهمی ۲۲ کرمهای کامپیوتر بالاخره سهراب عزیز میخواد برامون از لینوکس روی گوشی همراه بگه
دورهمیهای کرمهای کامپیوتر هر جمعه ساعت ۱۸
@sohrabbehdani
#دورهمی
#لینوکس
#لینوکسموبایل
#نرمافزارآزاد -
اگر شما هم از «قدیمی»های جامعه نرمافزار آزاد و متنباز ایران باشید، احتمالا با خیلی از پروژههایی که هدفشان ساخت یک توزیع گنو/لینوکس متناسب با نیاز روز کاربر بوده، آشنایید. چرا که به درازای تاریخ ورود گنو/لینوکس به ایران، تلاش برای ساخت توزیع ایرانیزهشده هم بوده.
اما متاسفانه، یک نگاه اجمالی به دیستروواچ (لینک) میتونه به ما نشون بده که تمامی این پروژهها در نقطهای متوقف شدند. البته لازم به ذکره که پروژههایی مانند زمین، کاپریس و جبیر هم بودند که متاسفانه در دیستروواچ مدخل مرتبط با خودشان را نتونستن داشته باشن.
اما چند وقت پیش، توجهم به پروژهای جلب شد که اتفاقا کاملا زندهست و خیلی هم خوب داره پیش میره. پروژهای با نام «پارچلینوکس» که در واقع ترکیبی از واژههای Persian و Arch Linux میتونیم در نظر بگیریم. این ترکیب، موجب ساخت یک اسم بامزه هم شده که به نظرم این خودش میتونه تا حد خوبی، ارزش برندینگ خلق کنه برای این محصول. برای دریافت این توزیع و اطلاعات بیشتر میتونید به وبسایتش (لینک) مراجعه کنید.
آشنایی اجمالی با آرچ
احتمالا اگر کاربر گنو/لینوکس باشید، اسم آرچ رو به وفور شنیدید. یک توزیع نهچندان دوستداشتنی که بخاطر مدل عرضه «غلتان» معروفه. البته گذشته از اون، بخاطر این معروفه که همه چی رو «ساده» نگه داشته و از قاعده KISS پیروی میکنه.
در واقع، اگر شما در این زمینه تازهکار باشید، آرچ رو اصلا و ابدا نمیتونید بدون کمک یک حرفهایتر، ویدئو یا مستند خاصی نصب کنید. اما خب از طرفی هم آرچ امکانات جالبی داره (مثل AUR) و به نسبت توزیعهای سنتیتر (دبیان مثلا) در بعضی سختافزارها میتونه کارکرد بهتری از خودش نشون بده.
یکی از دلایلی که تعداد نسبتا خوبی توزیع مبتنی بر آرچلینوکس داریم، دقیقا همینه. توزیعیه که چیزهای خوبی برای عرضه داره ولی خب در دسترس همه نیست. به همین خاطر هم خیلی از افرادی که بیشتر من و شما با آرچ آشنان، اومدند و توزیعهایی ساختند که به ما هم کمک کنه ازش لذت ببریم.
بریم سراغ پارچ!
من به سهراب (سازنده پارچ) قول یک «نقد منصفانه» دادم و خب، اینجا هم میریم که به صورت منصفانه نقدشون کنیم.
اول بگم که با شناختی که از پروژه پیدا کردم، سازندگان توزیع، روی KDE بیشتر مانور دادند و وقت گذاشتن (و البته این به معنای بد بودن سایر نسخهها نیست) و اگر سیستم خوبی دارید، به نظر من بهتره مستقیم برید سراغ این نسخه.
من از اونجایی که میخواستم روی ماشین مجازی تست کنم و بعد به یک لپتاپ قدیمی ببرمش، نسخه XFCE رو دانلود و نصب کردم.
برخوردهای اولیه
پس از این که تصویر ISO پارچ رو بوت کردید، این صفحه به شما نمایش داده میشه:
طرح پسزمینه، جذاب و ایرانیه. معمولا خیلی از توزیعهای مشابه روی این صفحه پسزمینه خاصی نمیذارند. پس این هویت بصری، به نظرم تا اینجا یک نقطه قوت برای این توزیع بوده.
پس از این که گزینه اول رو انتخاب کنیم، به این صفحه میرسیم:
اینجا برام جالب بود. عموما XFCE در چنین توزیعهایی، پنلی به تقلید از ویندوز در پایین صفحه دارند، یا این که نرمافزارهایی مثل cairo-dock یا Plank رو پایین صفحه قرار میدند و پنل رو به بالا منتقل میکنند (به تقلید از macOS) که خب در اینجا کلا شکل متفاوتی از پنل xfce رو شاهدیم. پنل که گوشه سمت چپ صفحه نمایش قرار گرفته و امکان خوبی برای استفاده از فضای افقی مانیتور فراهم میکنه.
مورد بعدی، Welcome Screen جذاب این توزیعه. این هم از مواردیه که در توزیعهایی مثل پارچ، خیلی کمتر به چشم میخوره. ولی خب تا اینجا پارچ بسیار فراتر از یه ریمستر ساده از آرچ خودش رو نشون داده.
نصاب
مثل خیلی از توزیعهای این روزها، پارچ هم از کالامارس برای نصب خودش روی دیسک شما استفاده میکنه و خب وقتی لوکیشن شما رو بر اساس IP ایران تشخیص بده، فارسی میشه و سیستمعامل هم فارسی نصب میکنه.
در نصاب تفاوت خیلی زیادی با سایر توزیعها مشاهده نمیکنیم که این هم میتونه یک نقطه قوت محسوب بشه. چرا که حس آشنایی برای کاربرانی که از سایر توزیعها میان داره.
به همین خاطر، نماگرفتهای بیشتری از نصاب اینجا قرار نمیدم.
پروسه نصب، حدود ۳-۴ دقیقه طول میکشه و بعد از اون به این صفحه میرسیم:
و اینجاست که با یک ریبوت، به دنیای پارچ میریم 🙂
تست پارچ پس از نصب
راستش یکم نقدم اینجا قراره تند بشه به چندین دلیل. نخستین دلیل اینه:
وقتی در syslinux که موقع بوت شدن ISO دیدیم اون پسزمینه زیبا به چشم میخوره، انتظار داشتم در گراب هم همون شمایل رو ببینم. با توجه به این که VirtualBox دارم انتظار لود شدن کامل plymouth نداشتم (اگر توزیع داشته باشه) ولی انتظار گراب زیباتری رو داشتم. گرچه پسزمینه گراب فقط یه عکسه و تغییری در کارکرد سیستم نداره.
اما مشکل اصلی من، بعد از بوت شدن شروع شد. پروسه بوت، کاملا درست طی شد ولی SDDM (مدیر نمایشگر) درست کار نکرد و مجبور شدم با یکم دانش لینوکسیای که داشتم، وارد محیط گرافیکی بشم.
البته نکته خوب اینجاست که این مورد رو سریعا به سازندگان توزیع اطلاع دادم و راهحل سریعی براش ارائه دادند و از اون گذشته، در برنامه قرار دادند که در ریلیزهای بعدی این مشکل پیش نیاد. این پشتیبانی جامعهمحور، برای من جالب و تحسینبرانگیز بود.
محیط گرافیکی و عملکرد آن
خب، پس از فیکس کردن SDDM چنین صفحهای رو میبینیم:
و پس از ورود پسورد، به محیط زیبای XFCE وارد میشیم:
برای تست یه سری موارد هم، ترمینال رو باز کردم و GIMP رو روی پارچ نصب کردم و همهچی خیلی خوب و روان پیش میرفت.
جمعبندی
برخلاف خیلی از توزیعهای جدیدی که هرروز ایجاد میشن، پارچ تا حد خیلی خوبی حرف برای گفتن داره. یکی از دلایلش هم اینه که سیستم پایداری خوبی داره و تا الان، خبری از این که سیستم کلا از کار بیفته یا سر نصب بستهها کرش کنه؛ نبوده.
در کل تجربه بسیار خوبی برای من رقم زد، آن هم در ویرچوال باکس مک (که احتمالا میدونید بلای عالمه) اما خب من رو داره قلقلک میده که بعنوان سیستمعامل اصلی کامپیوتر قدیمی، ازش استفاده کنم.
حتی با توجه به سختافزار لپتاپ قدیمی (پردازشگر i5 نسل چهارم و ۱۶ گیگابایت حافظه) عجیب نیست که نسخههای KDE یا GNOME هم بتونم بدون مشکل اجرا کنم. قطعا پس از نصب روی ماشین واقعی هم نقد مجددی بر این توزیع، خواهم نوشت.
در پایان و بعنوان حسن ختام هم باید بگم که مایه خوشحالیه که در شرایطی که هیچکس به فکر جامعه نرمافزار آزاد نیست، چنین پروژههایی زنده هستند و به باقی دوستان، امید میدن.
موفق و موید باشید.
#اوبونتو #سیستمعامل #کامپیوتر #گنو #گنولینوکس #لینوکس #متنباز #نرمافزارآزاد #نرمافزارمتنباز
-
در نرمافزار، مفهوم آزادی و این سؤال که کاربران نرمافزار باید چه حقوقی داشته باشند، اغلب به نظر میرسد که به چیزهایی مانند ویژگیها و عملکردها بیشتر نگاه میکنند.
ویژگی ها و عملکرد می تواند خوب باشد، اما نه به قیمت آزادی ما.
قدرت واقعی در آزادی اجرا و مطالعه، تغییر و به اشتراک گذاری برنامه نهفته است.
این فلسفه که انکار این حقوق از کاربران غیراخلاقی است، زیربنای جنبش نرم افزار آزاد را تشکیل میدهد و زمینه را برای این حقوق فراهم میکند.
نهضت نرمافزار آزاد در هستهاش، توانمندسازی کاربران است. نرم افزار شرکتی، که در آن کد منبع مخفی نگه داشته میشود و تغییرات محدود میشود، نمونهای از اعمال قدرت بر دیگران است که آنها را در یک قفس دیجیتال به دام میاندازد. آنها تابع هوسهای توسعهدهنده نرمافزار هستند، که قبلاً تصمیم گرفته است که کاربران برنامه چه کاری را میتوانند یا نمیتوانند انجام دهند. از آنجایی که نرمافزار به طور فزایندهای با ظاهر شدن در همه چیز (یا به ظاهر چنین است) و تصمیمگیری در سکوت در مورد آنچه که “اجازه” انجام آن را دارید، زندگی ما را اداره میکند، این سؤال که چه کسی نرمافزار را کنترل میکند به این سؤال تبدیل میشود که چه کسی شما را از طریق آن کنترل میکند و به موضوع تبدیل میشود. اهمیت اخلاقی و سیاسی این عدم کنترل کاربر بر نرمافزار اشتباه است، و مثالهای زیادی وجود دارد که نشان میدهد چگونه عدم قدرت کاربر بر نرمافزار به طور مستقیم به آنها و جامعه در کل آسیب میرساند.
نرم افزار آزاد، در تضاد کامل، کاربران را از این اسارت دیجیتالی رها می کند. این چهار آزادی اساسی را به آنها میدهد:
- آزادی اجرای برنامه برای هر هدفی
- آزادی مطالعه نحوه عملکرد برنامه و تغییر آن
- آزادی توزیع مجدد نسخههای دقیق برنامه
- آزادی توزیع مجدد نسخههای اصلاح شده برنامه
در دنیایی که به طور فزایندهای تحت تسلط نرمافزار است، جنبش نرمافزار آزاد پادزهری قدرتمند برای نیروهای کنترل ارائه میدهد. با پذیرش نرمافزار آزاد، میتوانیم قدرت خود را بهعنوان کاربر بازیابی کنیم، آن را متناسب با نیازهایمان شکل دهیم و کنترل محاسبات خود را حفظ کنیم.
GNU General Public License (GPL) این فلسفه را نشان میدهد، این برنامه نه تنها به این منظور طراحی شده است که به کاربران اجازه استفاده و اصلاح نرمافزار را بدهد، بلکه برای اطمینان از حفظ این آزادیها برای همه کاربران طراحی شده است. GPL بیانگر این باور است که کاربران باید بر نرمافزار خود کنترل داشته باشند، و روح منشور حقوق را در عملکرد آن برای تضمین آزادیهای فردی در برابر نهادهای برتر منعکس میکند.
جنبش نرمافزار آزاد با هدف توانمندسازی کاربران، حصول اطمینان از اینکه نرمافزار به آنها خدمت میکند و نه برعکس، میخواهد. بنابراین، این جنبش در تقاطع فناوری و حقوق بشر قرار دارد و از جهانی دفاع میکند که در آن نرمافزار به جای محدود کردن، قدرت میبخشد و به جای تفرقه، متحد میکند.
بنابراین، دفعه بعد که به سراغ یک نرمافزار میروید، اهمیت کنترل نرمافزاری که استفاده میکنید را بدانید و از خود بپرسید: آیا میخواهید در قفس زندگی کنید، مطیع استادی باشید که برای شما تصمیم میگیرد یا شما آیا میخواهید یک فرد آزاد باشید؟ امیدوارم دومی رو انتخاب کنید.
من شما را تشویق میکنم برای کسب اطلاعات بیشتر در مورد جنبش نرمافزار آزاد و اطلاعرسانی درباره اهمیت نرمافزار آزاد به اینجا مراجعه کنید.
منبع jxself
-
در دنیایی که AI و بخصوص از نوع Generative به شدت در اون مهم شده، یکی از مسائل بزرگی که باهاش روبرو هستیم، چیرگی زبان انگلیسی بر جویه که ساخته شده.
من در مطلب پیشینم، در مورد چیرگی زبان انگلیسی بر دنیای هوش مصنوعی نوشته بودم که میتونید بخونید و ببینید که چه مشکلاتی وجود دارند که داریم باهاشون دست و پنجه نرم میکنیم.
اما خب، الان قضیه کمی متفاوت شده و ما در این مطلب قراره «مارال» رو بررسی کنیم، هم این که ایدهش از کجا آمد و هم این که چیه و چه فرقهایی با تلاشهای پیشین داره و هم این که در کل مزیتش چیه.
مارال هفت میلیارد پارامتری و مزایای آن
در تابستان امسال یا دقیقتر بگم روز ۱۵ تیر ۱۴۰۲، من رویدادی با نام Summertime AI برگزار کردم. رویداد برای معرفی چندین ابزار هوش مصنوعی بود و من اشارهای به ابزاری به اسم «مارال» کردم.
مارال در اون زمان، قرار بود یک GPT2 تیون شده روی زبان فارسی باشه، اما خب بعد از کمی تحقیق و تفحص در مورد این مدل، فهمیدم که خیلی پیشتر از ما، افرادی بودند که این مدل رو با زبان فارسی تیون کنند.
حقیقتا GPT2 هرقدر هم ساختار خوبی داشت، ظاهرا مدل مناسبی برای این موضوع نبود!
اما راهحل رو کمی بعدتر، پیدا کردیم. در ادامه، قراره در مورد این راهحل صحبت کنیم و ببینیم که مارال چیه و چه مزایایی داره و برای توسعه بهترش، باید چه کارهایی کنیم.
مارال چیه؟
مارال، یک مدل بزرگ زبانی یا LLM بر مبنای مدل Mistral 7B (لینک) و تیونشده برای زبان فارسیه. این مدل، به صورت «پیروی از دستورالعمل» یا Instruction Following کار میکنه و نتایجی که تولید میکنه هم تقریبا همارز GPT-3.5 هستند.
مارال در حال حاضر در نسخه ۷ میلیارد پارامتری عرضه میشه، همچنین به صورت یک adapter برای Mistral هم قابل استفادهست که اگر شما پیشتر مدل میسترال رو جایی داشته باشید، صرفا با استفاده از آداپتور مارال، بتونید ازش استفاده کنید.
همچنین مدل و جزییاتش در این لینک موجودند.
مزایای مارال نسبت به مدلهای فارسی قبلی چیه؟
برای درک این موضوع، باید تا حد زیادی عقب بریم. ببینیم اصلا از کِی، بحث پردازش زبان طبیعی یا NLP فارسی، خیلی داغ شد. راستش رو بخواهید از زمانی که شخصا به یاد دارم، بحث پردازش و نمایش زبان فارسی، بحث داغی بود.
حتی میشه گفت چالشهای بسیار زیادی هم در این حوزه وجود داشت. کمکم با پیشرفت اینترنت، این موضوع هم بهبود پیدا کرد. ناگفته نماند که البته حتی حضور فونتهای آزاد فارسی مانند وزیرمتن (جا داره اینجا هم یادی کنیم از صابر راستیکردار عزیز) هم تاثیر بسزایی در این امر گذاشتند.
اما بحث Text Generation چطور؟ این بحث به صورت خاص در همون سالهای ۲۰۱۶ تا ۲۰۱۸ که در دنیا مدلهای LSTM و GPT-2 خیلی مطرح بودند، پا گرفت. بسیاری از اشخاص و شرکتهای ایرانی، به سمت تولید مدل رفتند. در ادامه، دوتا از این مدلها که «اختصاصا» برای زبان فارسی ساخته شدند رو بررسی و مشکلاتشون هم مطرح میکنم.
مدلهای تجاری
در حال حاضر، تنها مدلی که به صورت تجاری در دسترسه، مدل وبسایت «خودنویس»ئه که خب، این مدل علیرغم این که خروجیهای بسیار خوبی میتونه تولید کنه، تجاریه و نمیشه خیلی بررسی دقیقی روش داشت.
علاوه بر اون، خروجیهایی که تولید میکنه من رو یاد خروجی مدلهایی مانند GPT NeoX 20B و GPT J 6B میندازه و خب با توجه به قدمت این وبسایت، این موضوع کاملا طبیعیه.
یکی از مشکلاتی که مدلهایی مثل GPT J دارند، اینه که علاقه خاصی به تکرار خودشون دارند، البته این مشکل تا حدی هم به Tokenizer های مدلها برمیگرده که برای زبان فارسی، مناسبسازی نشدند.
مدلهای آزاد
اما در حین جستجو، تونستم دو مدل آزادی که اختصاصا برای فارسی ترین شدند رو پیدا کنم که در ادامه در موردشون کمی توضیح خواهم داد.
- مدل ParsGPT: این مدل، دقیقا GPT2 اون هم نسخه ۱۴۲ میلیون پارامتری بود که روی دیتای فارسی ترین شده، گرچه دقت نسبتا خوبی در تولید محتوای فارسی داره، اما دو تا مشکل بزرگ داشت. اول، این که طبق معمول عادت به تکرار خودش داره (این مساله رو در ادامه در موردش صحبت خواهم کرد) و دوم این که از یه جایی به بعد، دقیقا مطالب بیربط به پرامپتی که داده شده تولید میکنه. مثلا ممکنه از یه مطلبی پیرامون هوش مصنوعی، برای شما متن یک خبر مرتبط با وزارت خارجه بورکینافاسو تولید کنه!
- مدل GPT2 Medium Persian: این مدل باز کمی بهتر بود. مدل بزرگتر و با حدود ۳۰۰ میلیون پارامتر. اما مشکل به طور واضح، دیتایی بود که مدل باهاش pretrain شده. به قول معروف روی «آشغالهای سئوشده وب فارسی» ترین شده و احتمال این که مطالب خلاف واقع تولید کنه بسیار بالاست. گذشته از این، هنوز مشکل تولید محتوای بیربط هم در این یکی مدل به چشم میخورد.
پس راهحل این بود که یک مدل جدیدتر با پایه جدیدتر ساخته بشه. خوشبختانه دوستی به نام سینا رشیدی، دادگان آلپاکای فارسی رو ایجاد کرده که ازش برای ترین کردن این مدل، استفاده کردیم.
و اگر بخواهیم مزایای مارال رو نسبت به مدلهای پیشین بگیم:
- دیتاست بهتر
- پارامترهای بیشتر
- مدل پایه جدیدتر
- خروجیهای بهتر
خواهند بود.
مزایای مارال نسبت به مدل پایهش (Mistral 7B) چیه؟
اولین روزی که از میسترال استفاده کردم متوجه شدم نسبت به مدلهای قبلی مثل LLaMa, LLaMa2, StableLM 7B و Vicuna و امثالهم، درک بهتری از الفبای فارسی/عربی داره.
این نشان از این بود که این مدل، قابلیت فهمیدن فارسی داره ولی به قدر کافی مطلب فارسی ندیده. به همین خاطر دست به فاینتیون کردنش روی دیتاست فارسی زدم.
مزیت این مدل نسبت به میسترال، اینه که فارسی رو از لحاظ ساختار و معنا درستتر میفهمه و میتونه خروجی بسیار بهتری در زبان فارسی تولید کنه. نکته جالب اینه که زبان انگلیسی هم همچنان میفهمه، پس یک مدل Bilingual داریم که میتونیم در آینده، ازش استفادههای باحالی کنیم.
بذارید خیلی خلاصه بگم، مارال، تمام خوبیهای میسترال رو داره بعلاوه درک خوبی از زبان شیرین فارسی. البته ناگفته نماند که در بخش بعدی مشکلاتی که در نسخه آلفا داشتیم رو هم لیست کردم و براتون نوشتم 🙂
در حال حاضر چه مشکلاتی ممکنه در استفاده از مارال پیش بیاد؟
- مدل در هذیانگویی (Hallucination) بسیار خوبه. البته، این مشکل تقریبا تمام مدلهای زبانیه و با گذر زمان، میشه حلش کرد.
- مدل علاقه زیادی به تکرار خودش داره 😁
- نتایج مدل در حال حاضر خیلی factual نیستند و میتونه misinformation تولید کنه.
- مدل خیلی بزرگه و با همه سختافزارها قابل اجرا نیست (البته با کد ۸ بیتی که ارائه کردیم قابل اجرا میشه)
- فرمت پرامپتش، کمی مناسب نیست و نیازه که شروع و پایان جملات به مدل آموزش داده شه.
چه چیزی برای توسعه بهتر مارال لازمه؟
- دیتاست بهتر (نه الزاما بزرگتر) و حتی شاید دیتاستهای تخصصی
- ترین شدن tokenizer روی زبان فارسی
چطور از مارال استفاده کنم؟
چنانچه قصد دارید از مارال استفاده کنید، کدهای اجرای مارال روی GPU رو در این لینک قرار دادیم. میتونید این کدها رو روی سیستم خودتون یا در Google Colab اجرا کنید.
جمعبندی
پس از این که یک ترین موفق روی Stable Diffusion و ساخت مدل «مانی» که البته در این مطلب در موردش توضیح داده بودم، باعث شد که پلتفرم هوش مصنوعی مانی رو راهاندازی کنم و به نوعی یک AI company تشکیل بدم، مسیرم به شکلی تغییر کرد که پشتیبانی بهتر و بهتر از زبان شیرین فارسی رو بتونم به این مدلها اضافه کنم.
در حال حاضر، کاربردهای زیادی برای مدل بزرگ زبانی فارسی مانند مارال میشه متصور شد. گذشته از رباتهای پشتیبان (که با متد RAG ساخته میشن) میشه به کاربردهای بسیار بیشتری هم برای این مدل فکر کرد. دوست دارم بدونم شما چه فکری در مورد این مدل دارید؟
در پایان هم ممنونم از وقتی که گذاشتید و این مطلب رو خوندید. امیدوارم این مطلب، برای شما مفید بوده باشه. موفق و موید باشید 🙂
#جبیر #جبیری #حقیری #حقیریقزوینی #کامپیوتر #متنباز #محمدرضاحقیری #نرمافزارآزاد #نرمافزارمتنباز #هوشمصنوعی #یادگیریعمیق #یادگیریماشین
-
در دنیایی که AI و بخصوص از نوع Generative به شدت در اون مهم شده، یکی از مسائل بزرگی که باهاش روبرو هستیم، چیرگی زبان انگلیسی بر جویه که ساخته شده.
من در مطلب پیشینم، در مورد چیرگی زبان انگلیسی بر دنیای هوش مصنوعی نوشته بودم که میتونید بخونید و ببینید که چه مشکلاتی وجود دارند که داریم باهاشون دست و پنجه نرم میکنیم.
اما خب، الان قضیه کمی متفاوت شده و ما در این مطلب قراره «مارال» رو بررسی کنیم، هم این که ایدهش از کجا آمد و هم این که چیه و چه فرقهایی با تلاشهای پیشین داره و هم این که در کل مزیتش چیه.
مارال هفت میلیارد پارامتری و مزایای آن
در تابستان امسال یا دقیقتر بگم روز ۱۵ تیر ۱۴۰۲، من رویدادی با نام Summertime AI برگزار کردم. رویداد برای معرفی چندین ابزار هوش مصنوعی بود و من اشارهای به ابزاری به اسم «مارال» کردم.
مارال در اون زمان، قرار بود یک GPT2 تیون شده روی زبان فارسی باشه، اما خب بعد از کمی تحقیق و تفحص در مورد این مدل، فهمیدم که خیلی پیشتر از ما، افرادی بودند که این مدل رو با زبان فارسی تیون کنند.
حقیقتا GPT2 هرقدر هم ساختار خوبی داشت، ظاهرا مدل مناسبی برای این موضوع نبود!
اما راهحل رو کمی بعدتر، پیدا کردیم. در ادامه، قراره در مورد این راهحل صحبت کنیم و ببینیم که مارال چیه و چه مزایایی داره و برای توسعه بهترش، باید چه کارهایی کنیم.
مارال چیه؟
مارال، یک مدل بزرگ زبانی یا LLM بر مبنای مدل Mistral 7B (لینک) و تیونشده برای زبان فارسیه. این مدل، به صورت «پیروی از دستورالعمل» یا Instruction Following کار میکنه و نتایجی که تولید میکنه هم تقریبا همارز GPT-3.5 هستند.
مارال در حال حاضر در نسخه ۷ میلیارد پارامتری عرضه میشه، همچنین به صورت یک adapter برای Mistral هم قابل استفادهست که اگر شما پیشتر مدل میسترال رو جایی داشته باشید، صرفا با استفاده از آداپتور مارال، بتونید ازش استفاده کنید.
همچنین مدل و جزییاتش در این لینک موجودند.
مزایای مارال نسبت به مدلهای فارسی قبلی چیه؟
برای درک این موضوع، باید تا حد زیادی عقب بریم. ببینیم اصلا از کِی، بحث پردازش زبان طبیعی یا NLP فارسی، خیلی داغ شد. راستش رو بخواهید از زمانی که شخصا به یاد دارم، بحث پردازش و نمایش زبان فارسی، بحث داغی بود.
حتی میشه گفت چالشهای بسیار زیادی هم در این حوزه وجود داشت. کمکم با پیشرفت اینترنت، این موضوع هم بهبود پیدا کرد. ناگفته نماند که البته حتی حضور فونتهای آزاد فارسی مانند وزیرمتن (جا داره اینجا هم یادی کنیم از صابر راستیکردار عزیز) هم تاثیر بسزایی در این امر گذاشتند.
اما بحث Text Generation چطور؟ این بحث به صورت خاص در همون سالهای ۲۰۱۶ تا ۲۰۱۸ که در دنیا مدلهای LSTM و GPT-2 خیلی مطرح بودند، پا گرفت. بسیاری از اشخاص و شرکتهای ایرانی، به سمت تولید مدل رفتند. در ادامه، دوتا از این مدلها که «اختصاصا» برای زبان فارسی ساخته شدند رو بررسی و مشکلاتشون هم مطرح میکنم.
مدلهای تجاری
در حال حاضر، تنها مدلی که به صورت تجاری در دسترسه، مدل وبسایت «خودنویس»ئه که خب، این مدل علیرغم این که خروجیهای بسیار خوبی میتونه تولید کنه، تجاریه و نمیشه خیلی بررسی دقیقی روش داشت.
علاوه بر اون، خروجیهایی که تولید میکنه من رو یاد خروجی مدلهایی مانند GPT NeoX 20B و GPT J 6B میندازه و خب با توجه به قدمت این وبسایت، این موضوع کاملا طبیعیه.
یکی از مشکلاتی که مدلهایی مثل GPT J دارند، اینه که علاقه خاصی به تکرار خودشون دارند، البته این مشکل تا حدی هم به Tokenizer های مدلها برمیگرده که برای زبان فارسی، مناسبسازی نشدند.
مدلهای آزاد
اما در حین جستجو، تونستم دو مدل آزادی که اختصاصا برای فارسی ترین شدند رو پیدا کنم که در ادامه در موردشون کمی توضیح خواهم داد.
- مدل ParsGPT: این مدل، دقیقا GPT2 اون هم نسخه ۱۴۲ میلیون پارامتری بود که روی دیتای فارسی ترین شده، گرچه دقت نسبتا خوبی در تولید محتوای فارسی داره، اما دو تا مشکل بزرگ داشت. اول، این که طبق معمول عادت به تکرار خودش داره (این مساله رو در ادامه در موردش صحبت خواهم کرد) و دوم این که از یه جایی به بعد، دقیقا مطالب بیربط به پرامپتی که داده شده تولید میکنه. مثلا ممکنه از یه مطلبی پیرامون هوش مصنوعی، برای شما متن یک خبر مرتبط با وزارت خارجه بورکینافاسو تولید کنه!
- مدل GPT2 Medium Persian: این مدل باز کمی بهتر بود. مدل بزرگتر و با حدود ۳۰۰ میلیون پارامتر. اما مشکل به طور واضح، دیتایی بود که مدل باهاش pretrain شده. به قول معروف روی «آشغالهای سئوشده وب فارسی» ترین شده و احتمال این که مطالب خلاف واقع تولید کنه بسیار بالاست. گذشته از این، هنوز مشکل تولید محتوای بیربط هم در این یکی مدل به چشم میخورد.
پس راهحل این بود که یک مدل جدیدتر با پایه جدیدتر ساخته بشه. خوشبختانه دوستی به نام سینا رشیدی، دادگان آلپاکای فارسی رو ایجاد کرده که ازش برای ترین کردن این مدل، استفاده کردیم.
و اگر بخواهیم مزایای مارال رو نسبت به مدلهای پیشین بگیم:
- دیتاست بهتر
- پارامترهای بیشتر
- مدل پایه جدیدتر
- خروجیهای بهتر
خواهند بود.
مزایای مارال نسبت به مدل پایهش (Mistral 7B) چیه؟
اولین روزی که از میسترال استفاده کردم متوجه شدم نسبت به مدلهای قبلی مثل LLaMa, LLaMa2, StableLM 7B و Vicuna و امثالهم، درک بهتری از الفبای فارسی/عربی داره.
این نشان از این بود که این مدل، قابلیت فهمیدن فارسی داره ولی به قدر کافی مطلب فارسی ندیده. به همین خاطر دست به فاینتیون کردنش روی دیتاست فارسی زدم.
مزیت این مدل نسبت به میسترال، اینه که فارسی رو از لحاظ ساختار و معنا درستتر میفهمه و میتونه خروجی بسیار بهتری در زبان فارسی تولید کنه. نکته جالب اینه که زبان انگلیسی هم همچنان میفهمه، پس یک مدل Bilingual داریم که میتونیم در آینده، ازش استفادههای باحالی کنیم.
بذارید خیلی خلاصه بگم، مارال، تمام خوبیهای میسترال رو داره بعلاوه درک خوبی از زبان شیرین فارسی. البته ناگفته نماند که در بخش بعدی مشکلاتی که در نسخه آلفا داشتیم رو هم لیست کردم و براتون نوشتم 🙂
در حال حاضر چه مشکلاتی ممکنه در استفاده از مارال پیش بیاد؟
- مدل در هذیانگویی (Hallucination) بسیار خوبه. البته، این مشکل تقریبا تمام مدلهای زبانیه و با گذر زمان، میشه حلش کرد.
- مدل علاقه زیادی به تکرار خودش داره 😁
- نتایج مدل در حال حاضر خیلی factual نیستند و میتونه misinformation تولید کنه.
- مدل خیلی بزرگه و با همه سختافزارها قابل اجرا نیست (البته با کد ۸ بیتی که ارائه کردیم قابل اجرا میشه)
- فرمت پرامپتش، کمی مناسب نیست و نیازه که شروع و پایان جملات به مدل آموزش داده شه.
چه چیزی برای توسعه بهتر مارال لازمه؟
- دیتاست بهتر (نه الزاما بزرگتر) و حتی شاید دیتاستهای تخصصی
- ترین شدن tokenizer روی زبان فارسی
چطور از مارال استفاده کنم؟
چنانچه قصد دارید از مارال استفاده کنید، کدهای اجرای مارال روی GPU رو در این لینک قرار دادیم. میتونید این کدها رو روی سیستم خودتون یا در Google Colab اجرا کنید.
جمعبندی
پس از این که یک ترین موفق روی Stable Diffusion و ساخت مدل «مانی» که البته در این مطلب در موردش توضیح داده بودم، باعث شد که پلتفرم هوش مصنوعی مانی رو راهاندازی کنم و به نوعی یک AI company تشکیل بدم، مسیرم به شکلی تغییر کرد که پشتیبانی بهتر و بهتر از زبان شیرین فارسی رو بتونم به این مدلها اضافه کنم.
در حال حاضر، کاربردهای زیادی برای مدل بزرگ زبانی فارسی مانند مارال میشه متصور شد. گذشته از رباتهای پشتیبان (که با متد RAG ساخته میشن) میشه به کاربردهای بسیار بیشتری هم برای این مدل فکر کرد. دوست دارم بدونم شما چه فکری در مورد این مدل دارید؟
در پایان هم ممنونم از وقتی که گذاشتید و این مطلب رو خوندید. امیدوارم این مطلب، برای شما مفید بوده باشه. موفق و موید باشید 🙂
#جبیر #جبیری #حقیری #حقیریقزوینی #کامپیوتر #متنباز #محمدرضاحقیری #نرمافزارآزاد #نرمافزارمتنباز #هوشمصنوعی #یادگیریعمیق #یادگیریماشین
-
در دنیایی که AI و بخصوص از نوع Generative به شدت در اون مهم شده، یکی از مسائل بزرگی که باهاش روبرو هستیم، چیرگی زبان انگلیسی بر جویه که ساخته شده.
من در مطلب پیشینم، در مورد چیرگی زبان انگلیسی بر دنیای هوش مصنوعی نوشته بودم که میتونید بخونید و ببینید که چه مشکلاتی وجود دارند که داریم باهاشون دست و پنجه نرم میکنیم.
اما خب، الان قضیه کمی متفاوت شده و ما در این مطلب قراره «مارال» رو بررسی کنیم، هم این که ایدهش از کجا آمد و هم این که چیه و چه فرقهایی با تلاشهای پیشین داره و هم این که در کل مزیتش چیه.
مارال هفت میلیارد پارامتری و مزایای آن
در تابستان امسال یا دقیقتر بگم روز ۱۵ تیر ۱۴۰۲، من رویدادی با نام Summertime AI برگزار کردم. رویداد برای معرفی چندین ابزار هوش مصنوعی بود و من اشارهای به ابزاری به اسم «مارال» کردم.
مارال در اون زمان، قرار بود یک GPT2 تیون شده روی زبان فارسی باشه، اما خب بعد از کمی تحقیق و تفحص در مورد این مدل، فهمیدم که خیلی پیشتر از ما، افرادی بودند که این مدل رو با زبان فارسی تیون کنند.
حقیقتا GPT2 هرقدر هم ساختار خوبی داشت، ظاهرا مدل مناسبی برای این موضوع نبود!
اما راهحل رو کمی بعدتر، پیدا کردیم. در ادامه، قراره در مورد این راهحل صحبت کنیم و ببینیم که مارال چیه و چه مزایایی داره و برای توسعه بهترش، باید چه کارهایی کنیم.
مارال چیه؟
مارال، یک مدل بزرگ زبانی یا LLM بر مبنای مدل Mistral 7B (لینک) و تیونشده برای زبان فارسیه. این مدل، به صورت «پیروی از دستورالعمل» یا Instruction Following کار میکنه و نتایجی که تولید میکنه هم تقریبا همارز GPT-3.5 هستند.
مارال در حال حاضر در نسخه ۷ میلیارد پارامتری عرضه میشه، همچنین به صورت یک adapter برای Mistral هم قابل استفادهست که اگر شما پیشتر مدل میسترال رو جایی داشته باشید، صرفا با استفاده از آداپتور مارال، بتونید ازش استفاده کنید.
همچنین مدل و جزییاتش در این لینک موجودند.
مزایای مارال نسبت به مدلهای فارسی قبلی چیه؟
برای درک این موضوع، باید تا حد زیادی عقب بریم. ببینیم اصلا از کِی، بحث پردازش زبان طبیعی یا NLP فارسی، خیلی داغ شد. راستش رو بخواهید از زمانی که شخصا به یاد دارم، بحث پردازش و نمایش زبان فارسی، بحث داغی بود.
حتی میشه گفت چالشهای بسیار زیادی هم در این حوزه وجود داشت. کمکم با پیشرفت اینترنت، این موضوع هم بهبود پیدا کرد. ناگفته نماند که البته حتی حضور فونتهای آزاد فارسی مانند وزیرمتن (جا داره اینجا هم یادی کنیم از صابر راستیکردار عزیز) هم تاثیر بسزایی در این امر گذاشتند.
اما بحث Text Generation چطور؟ این بحث به صورت خاص در همون سالهای ۲۰۱۶ تا ۲۰۱۸ که در دنیا مدلهای LSTM و GPT-2 خیلی مطرح بودند، پا گرفت. بسیاری از اشخاص و شرکتهای ایرانی، به سمت تولید مدل رفتند. در ادامه، دوتا از این مدلها که «اختصاصا» برای زبان فارسی ساخته شدند رو بررسی و مشکلاتشون هم مطرح میکنم.
مدلهای تجاری
در حال حاضر، تنها مدلی که به صورت تجاری در دسترسه، مدل وبسایت «خودنویس»ئه که خب، این مدل علیرغم این که خروجیهای بسیار خوبی میتونه تولید کنه، تجاریه و نمیشه خیلی بررسی دقیقی روش داشت.
علاوه بر اون، خروجیهایی که تولید میکنه من رو یاد خروجی مدلهایی مانند GPT NeoX 20B و GPT J 6B میندازه و خب با توجه به قدمت این وبسایت، این موضوع کاملا طبیعیه.
یکی از مشکلاتی که مدلهایی مثل GPT J دارند، اینه که علاقه خاصی به تکرار خودشون دارند، البته این مشکل تا حدی هم به Tokenizer های مدلها برمیگرده که برای زبان فارسی، مناسبسازی نشدند.
مدلهای آزاد
اما در حین جستجو، تونستم دو مدل آزادی که اختصاصا برای فارسی ترین شدند رو پیدا کنم که در ادامه در موردشون کمی توضیح خواهم داد.
- مدل ParsGPT: این مدل، دقیقا GPT2 اون هم نسخه ۱۴۲ میلیون پارامتری بود که روی دیتای فارسی ترین شده، گرچه دقت نسبتا خوبی در تولید محتوای فارسی داره، اما دو تا مشکل بزرگ داشت. اول، این که طبق معمول عادت به تکرار خودش داره (این مساله رو در ادامه در موردش صحبت خواهم کرد) و دوم این که از یه جایی به بعد، دقیقا مطالب بیربط به پرامپتی که داده شده تولید میکنه. مثلا ممکنه از یه مطلبی پیرامون هوش مصنوعی، برای شما متن یک خبر مرتبط با وزارت خارجه بورکینافاسو تولید کنه!
- مدل GPT2 Medium Persian: این مدل باز کمی بهتر بود. مدل بزرگتر و با حدود ۳۰۰ میلیون پارامتر. اما مشکل به طور واضح، دیتایی بود که مدل باهاش pretrain شده. به قول معروف روی «آشغالهای سئوشده وب فارسی» ترین شده و احتمال این که مطالب خلاف واقع تولید کنه بسیار بالاست. گذشته از این، هنوز مشکل تولید محتوای بیربط هم در این یکی مدل به چشم میخورد.
پس راهحل این بود که یک مدل جدیدتر با پایه جدیدتر ساخته بشه. خوشبختانه دوستی به نام سینا رشیدی، دادگان آلپاکای فارسی رو ایجاد کرده که ازش برای ترین کردن این مدل، استفاده کردیم.
و اگر بخواهیم مزایای مارال رو نسبت به مدلهای پیشین بگیم:
- دیتاست بهتر
- پارامترهای بیشتر
- مدل پایه جدیدتر
- خروجیهای بهتر
خواهند بود.
مزایای مارال نسبت به مدل پایهش (Mistral 7B) چیه؟
اولین روزی که از میسترال استفاده کردم متوجه شدم نسبت به مدلهای قبلی مثل LLaMa, LLaMa2, StableLM 7B و Vicuna و امثالهم، درک بهتری از الفبای فارسی/عربی داره.
این نشان از این بود که این مدل، قابلیت فهمیدن فارسی داره ولی به قدر کافی مطلب فارسی ندیده. به همین خاطر دست به فاینتیون کردنش روی دیتاست فارسی زدم.
مزیت این مدل نسبت به میسترال، اینه که فارسی رو از لحاظ ساختار و معنا درستتر میفهمه و میتونه خروجی بسیار بهتری در زبان فارسی تولید کنه. نکته جالب اینه که زبان انگلیسی هم همچنان میفهمه، پس یک مدل Bilingual داریم که میتونیم در آینده، ازش استفادههای باحالی کنیم.
بذارید خیلی خلاصه بگم، مارال، تمام خوبیهای میسترال رو داره بعلاوه درک خوبی از زبان شیرین فارسی. البته ناگفته نماند که در بخش بعدی مشکلاتی که در نسخه آلفا داشتیم رو هم لیست کردم و براتون نوشتم 🙂
در حال حاضر چه مشکلاتی ممکنه در استفاده از مارال پیش بیاد؟
- مدل در هذیانگویی (Hallucination) بسیار خوبه. البته، این مشکل تقریبا تمام مدلهای زبانیه و با گذر زمان، میشه حلش کرد.
- مدل علاقه زیادی به تکرار خودش داره 😁
- نتایج مدل در حال حاضر خیلی factual نیستند و میتونه misinformation تولید کنه.
- مدل خیلی بزرگه و با همه سختافزارها قابل اجرا نیست (البته با کد ۸ بیتی که ارائه کردیم قابل اجرا میشه)
- فرمت پرامپتش، کمی مناسب نیست و نیازه که شروع و پایان جملات به مدل آموزش داده شه.
چه چیزی برای توسعه بهتر مارال لازمه؟
- دیتاست بهتر (نه الزاما بزرگتر) و حتی شاید دیتاستهای تخصصی
- ترین شدن tokenizer روی زبان فارسی
چطور از مارال استفاده کنم؟
چنانچه قصد دارید از مارال استفاده کنید، کدهای اجرای مارال روی GPU رو در این لینک قرار دادیم. میتونید این کدها رو روی سیستم خودتون یا در Google Colab اجرا کنید.
جمعبندی
پس از این که یک ترین موفق روی Stable Diffusion و ساخت مدل «مانی» که البته در این مطلب در موردش توضیح داده بودم، باعث شد که پلتفرم هوش مصنوعی مانی رو راهاندازی کنم و به نوعی یک AI company تشکیل بدم، مسیرم به شکلی تغییر کرد که پشتیبانی بهتر و بهتر از زبان شیرین فارسی رو بتونم به این مدلها اضافه کنم.
در حال حاضر، کاربردهای زیادی برای مدل بزرگ زبانی فارسی مانند مارال میشه متصور شد. گذشته از رباتهای پشتیبان (که با متد RAG ساخته میشن) میشه به کاربردهای بسیار بیشتری هم برای این مدل فکر کرد. دوست دارم بدونم شما چه فکری در مورد این مدل دارید؟
در پایان هم ممنونم از وقتی که گذاشتید و این مطلب رو خوندید. امیدوارم این مطلب، برای شما مفید بوده باشه. موفق و موید باشید 🙂
#جبیر #جبیری #حقیری #حقیریقزوینی #کامپیوتر #متنباز #محمدرضاحقیری #نرمافزارآزاد #نرمافزارمتنباز #هوشمصنوعی #یادگیریعمیق #یادگیریماشین
-
در دنیایی که AI و بخصوص از نوع Generative به شدت در اون مهم شده، یکی از مسائل بزرگی که باهاش روبرو هستیم، چیرگی زبان انگلیسی بر جویه که ساخته شده.
من در مطلب پیشینم، در مورد چیرگی زبان انگلیسی بر دنیای هوش مصنوعی نوشته بودم که میتونید بخونید و ببینید که چه مشکلاتی وجود دارند که داریم باهاشون دست و پنجه نرم میکنیم.
اما خب، الان قضیه کمی متفاوت شده و ما در این مطلب قراره «مارال» رو بررسی کنیم، هم این که ایدهش از کجا آمد و هم این که چیه و چه فرقهایی با تلاشهای پیشین داره و هم این که در کل مزیتش چیه.
مارال هفت میلیارد پارامتری و مزایای آن
در تابستان امسال یا دقیقتر بگم روز ۱۵ تیر ۱۴۰۲، من رویدادی با نام Summertime AI برگزار کردم. رویداد برای معرفی چندین ابزار هوش مصنوعی بود و من اشارهای به ابزاری به اسم «مارال» کردم.
مارال در اون زمان، قرار بود یک GPT2 تیون شده روی زبان فارسی باشه، اما خب بعد از کمی تحقیق و تفحص در مورد این مدل، فهمیدم که خیلی پیشتر از ما، افرادی بودند که این مدل رو با زبان فارسی تیون کنند.
حقیقتا GPT2 هرقدر هم ساختار خوبی داشت، ظاهرا مدل مناسبی برای این موضوع نبود!
اما راهحل رو کمی بعدتر، پیدا کردیم. در ادامه، قراره در مورد این راهحل صحبت کنیم و ببینیم که مارال چیه و چه مزایایی داره و برای توسعه بهترش، باید چه کارهایی کنیم.
مارال چیه؟
مارال، یک مدل بزرگ زبانی یا LLM بر مبنای مدل Mistral 7B (لینک) و تیونشده برای زبان فارسیه. این مدل، به صورت «پیروی از دستورالعمل» یا Instruction Following کار میکنه و نتایجی که تولید میکنه هم تقریبا همارز GPT-3.5 هستند.
مارال در حال حاضر در نسخه ۷ میلیارد پارامتری عرضه میشه، همچنین به صورت یک adapter برای Mistral هم قابل استفادهست که اگر شما پیشتر مدل میسترال رو جایی داشته باشید، صرفا با استفاده از آداپتور مارال، بتونید ازش استفاده کنید.
همچنین مدل و جزییاتش در این لینک موجودند.
مزایای مارال نسبت به مدلهای فارسی قبلی چیه؟
برای درک این موضوع، باید تا حد زیادی عقب بریم. ببینیم اصلا از کِی، بحث پردازش زبان طبیعی یا NLP فارسی، خیلی داغ شد. راستش رو بخواهید از زمانی که شخصا به یاد دارم، بحث پردازش و نمایش زبان فارسی، بحث داغی بود.
حتی میشه گفت چالشهای بسیار زیادی هم در این حوزه وجود داشت. کمکم با پیشرفت اینترنت، این موضوع هم بهبود پیدا کرد. ناگفته نماند که البته حتی حضور فونتهای آزاد فارسی مانند وزیرمتن (جا داره اینجا هم یادی کنیم از صابر راستیکردار عزیز) هم تاثیر بسزایی در این امر گذاشتند.
اما بحث Text Generation چطور؟ این بحث به صورت خاص در همون سالهای ۲۰۱۶ تا ۲۰۱۸ که در دنیا مدلهای LSTM و GPT-2 خیلی مطرح بودند، پا گرفت. بسیاری از اشخاص و شرکتهای ایرانی، به سمت تولید مدل رفتند. در ادامه، دوتا از این مدلها که «اختصاصا» برای زبان فارسی ساخته شدند رو بررسی و مشکلاتشون هم مطرح میکنم.
مدلهای تجاری
در حال حاضر، تنها مدلی که به صورت تجاری در دسترسه، مدل وبسایت «خودنویس»ئه که خب، این مدل علیرغم این که خروجیهای بسیار خوبی میتونه تولید کنه، تجاریه و نمیشه خیلی بررسی دقیقی روش داشت.
علاوه بر اون، خروجیهایی که تولید میکنه من رو یاد خروجی مدلهایی مانند GPT NeoX 20B و GPT J 6B میندازه و خب با توجه به قدمت این وبسایت، این موضوع کاملا طبیعیه.
یکی از مشکلاتی که مدلهایی مثل GPT J دارند، اینه که علاقه خاصی به تکرار خودشون دارند، البته این مشکل تا حدی هم به Tokenizer های مدلها برمیگرده که برای زبان فارسی، مناسبسازی نشدند.
مدلهای آزاد
اما در حین جستجو، تونستم دو مدل آزادی که اختصاصا برای فارسی ترین شدند رو پیدا کنم که در ادامه در موردشون کمی توضیح خواهم داد.
- مدل ParsGPT: این مدل، دقیقا GPT2 اون هم نسخه ۱۴۲ میلیون پارامتری بود که روی دیتای فارسی ترین شده، گرچه دقت نسبتا خوبی در تولید محتوای فارسی داره، اما دو تا مشکل بزرگ داشت. اول، این که طبق معمول عادت به تکرار خودش داره (این مساله رو در ادامه در موردش صحبت خواهم کرد) و دوم این که از یه جایی به بعد، دقیقا مطالب بیربط به پرامپتی که داده شده تولید میکنه. مثلا ممکنه از یه مطلبی پیرامون هوش مصنوعی، برای شما متن یک خبر مرتبط با وزارت خارجه بورکینافاسو تولید کنه!
- مدل GPT2 Medium Persian: این مدل باز کمی بهتر بود. مدل بزرگتر و با حدود ۳۰۰ میلیون پارامتر. اما مشکل به طور واضح، دیتایی بود که مدل باهاش pretrain شده. به قول معروف روی «آشغالهای سئوشده وب فارسی» ترین شده و احتمال این که مطالب خلاف واقع تولید کنه بسیار بالاست. گذشته از این، هنوز مشکل تولید محتوای بیربط هم در این یکی مدل به چشم میخورد.
پس راهحل این بود که یک مدل جدیدتر با پایه جدیدتر ساخته بشه. خوشبختانه دوستی به نام سینا رشیدی، دادگان آلپاکای فارسی رو ایجاد کرده که ازش برای ترین کردن این مدل، استفاده کردیم.
و اگر بخواهیم مزایای مارال رو نسبت به مدلهای پیشین بگیم:
- دیتاست بهتر
- پارامترهای بیشتر
- مدل پایه جدیدتر
- خروجیهای بهتر
خواهند بود.
مزایای مارال نسبت به مدل پایهش (Mistral 7B) چیه؟
اولین روزی که از میسترال استفاده کردم متوجه شدم نسبت به مدلهای قبلی مثل LLaMa, LLaMa2, StableLM 7B و Vicuna و امثالهم، درک بهتری از الفبای فارسی/عربی داره.
این نشان از این بود که این مدل، قابلیت فهمیدن فارسی داره ولی به قدر کافی مطلب فارسی ندیده. به همین خاطر دست به فاینتیون کردنش روی دیتاست فارسی زدم.
مزیت این مدل نسبت به میسترال، اینه که فارسی رو از لحاظ ساختار و معنا درستتر میفهمه و میتونه خروجی بسیار بهتری در زبان فارسی تولید کنه. نکته جالب اینه که زبان انگلیسی هم همچنان میفهمه، پس یک مدل Bilingual داریم که میتونیم در آینده، ازش استفادههای باحالی کنیم.
بذارید خیلی خلاصه بگم، مارال، تمام خوبیهای میسترال رو داره بعلاوه درک خوبی از زبان شیرین فارسی. البته ناگفته نماند که در بخش بعدی مشکلاتی که در نسخه آلفا داشتیم رو هم لیست کردم و براتون نوشتم 🙂
در حال حاضر چه مشکلاتی ممکنه در استفاده از مارال پیش بیاد؟
- مدل در هذیانگویی (Hallucination) بسیار خوبه. البته، این مشکل تقریبا تمام مدلهای زبانیه و با گذر زمان، میشه حلش کرد.
- مدل علاقه زیادی به تکرار خودش داره 😁
- نتایج مدل در حال حاضر خیلی factual نیستند و میتونه misinformation تولید کنه.
- مدل خیلی بزرگه و با همه سختافزارها قابل اجرا نیست (البته با کد ۸ بیتی که ارائه کردیم قابل اجرا میشه)
- فرمت پرامپتش، کمی مناسب نیست و نیازه که شروع و پایان جملات به مدل آموزش داده شه.
چه چیزی برای توسعه بهتر مارال لازمه؟
- دیتاست بهتر (نه الزاما بزرگتر) و حتی شاید دیتاستهای تخصصی
- ترین شدن tokenizer روی زبان فارسی
چطور از مارال استفاده کنم؟
چنانچه قصد دارید از مارال استفاده کنید، کدهای اجرای مارال روی GPU رو در این لینک قرار دادیم. میتونید این کدها رو روی سیستم خودتون یا در Google Colab اجرا کنید.
جمعبندی
پس از این که یک ترین موفق روی Stable Diffusion و ساخت مدل «مانی» که البته در این مطلب در موردش توضیح داده بودم، باعث شد که پلتفرم هوش مصنوعی مانی رو راهاندازی کنم و به نوعی یک AI company تشکیل بدم، مسیرم به شکلی تغییر کرد که پشتیبانی بهتر و بهتر از زبان شیرین فارسی رو بتونم به این مدلها اضافه کنم.
در حال حاضر، کاربردهای زیادی برای مدل بزرگ زبانی فارسی مانند مارال میشه متصور شد. گذشته از رباتهای پشتیبان (که با متد RAG ساخته میشن) میشه به کاربردهای بسیار بیشتری هم برای این مدل فکر کرد. دوست دارم بدونم شما چه فکری در مورد این مدل دارید؟
در پایان هم ممنونم از وقتی که گذاشتید و این مطلب رو خوندید. امیدوارم این مطلب، برای شما مفید بوده باشه. موفق و موید باشید 🙂
#جبیر #جبیری #حقیری #حقیریقزوینی #کامپیوتر #متنباز #محمدرضاحقیری #نرمافزارآزاد #نرمافزارمتنباز #هوشمصنوعی #یادگیریعمیق #یادگیریماشین
-
چند ماه پیش مقالهای با عنوان «جنگ مرورگر نه، بلکه جنگ وب» ترجمه و در وبلاگم منتشر کردم. اگر چه ماجرای DRM کروم لغو شد، ولی فایرفاکس پیروز ماجرا نبود!
امروز خبری را خوندم که میخی بود بر تابوت فایرفاکس:
دولت آمریکا یا در اصل USWDS، که مجموعهای جامع از استانداردها را برای وبسایتهای دولت ایالات متحده ایجاد میکند، پشتیبانی از فایرفاکس را متوقف کرد! (لینک خبر)
تو این خبر سهم بازار جهانی مرورگرها را بررسی میکند و سهم فایرفاکس کمتر از ۳٪ است. طبیعتا توسعه دهندگان خودشون را برای ۳٪ خسته نمیکنند. فاجعه در آسیا است:
همانطور که میبینید، سهم فایرفاکس در آسیا تقریبا صفر است! این میزان رغبت مردم به استفاده از نرمافزار آزاد را نشان میدهد. تراژدی اونجاست که حتی توسعه دهندگان و فعالین جامعه نرمافزار آزاد هم علاقهای به استفاده از ابزار آزاد نشان نمیدهند. نمونهاش همین گیتهاب که بیشتر منابع نرمافزارهای آزاد را میتوانید آنجا پیدا کنید. همون گیتهابی که حساب کاربری ایرانیها را در سال ۲۰۱۶ مسدود کرد.
نرمافزار آزاد اومده تا تجربه کاربری بهتر و امنیت بیشتر را به جامعه بده؛ وظیفه جامعه حمایت کردن از آن است. با نصب و استفاده از نرمافزارهای آزاد ازش حمایت کنید.