
এআই দ্বারা উত্পাদিত সামগ্রীর প্রায়শই ত্রুটি থাকে
পল টেলর/গেটি চিত্র
ওপেনএআই এবং গুগলের মতো প্রযুক্তি সংস্থাগুলিতে এআই চ্যাটবটগুলি গত কয়েক মাস ধরে যুক্তিযুক্ত আপগ্রেড বলে যা পেয়েছে – তারা আমাদের আরও ভাল উত্তর দিতে পারে, তবে সাম্প্রতিক পরীক্ষায় দেখা গেছে যে তারা কখনও কখনও আগের মডেলের চেয়ে খারাপ হয়ে যায়। চ্যাটবটগুলির ত্রুটিগুলি (“মায়া” নামে পরিচিত) প্রথম থেকেই একটি সমস্যা হয়ে দাঁড়িয়েছে এবং এটি স্পষ্ট যে আমরা এগুলি থেকে কখনই মুক্তি পেতে পারি না।
হ্যালুসিনেশন হ’ল একটি সাধারণ শব্দ যা বড় ভাষার মডেলগুলি (এলএলএম) দ্বারা তৈরি কিছু ভুলের জন্য ব্যবহৃত হয়, যেমন ওপেনাইয়ের চ্যাটজিপিটি বা গুগলের জেমিনির মতো পাওয়ার সিস্টেম। তারা কখনও কখনও মিথ্যা তথ্যকে সত্য হিসাবে দেখেন তার বর্ণনা এটি। যাইহোক, এটি একটি এআই-উত্পাদিত উত্তরকেও উল্লেখ করতে পারে যা আসলে সঠিক তবে এটি প্রয়োজনীয় প্রশ্নের সাথে প্রাসঙ্গিক নয়, বা অন্য উপায়ে নির্দেশাবলী অনুসরণ করতে ব্যর্থ হয়।
একটি ওপেনএআই প্রযুক্তিগত প্রতিবেদনে তার সর্বশেষ এলএলএম মূল্যায়ন করে দেখা গেছে যে এপ্রিল মাসে প্রকাশিত ও 3 এবং ও 4-মিনিট মডেলগুলির 2024 সালের দ্বিতীয়ার্ধে সংস্থা কর্তৃক পূর্বে প্রকাশিত ও 1 মডেলগুলির তুলনায় উল্লেখযোগ্য পরিমাণে উচ্চতর হ্যালুসিনেশন রয়েছে। তুলনায়, ও 1 এর একটি মায়া হার 16%রয়েছে।
সমস্যাটি ওপেনাইয়ের মধ্যে সীমাবদ্ধ নয়। ভ্যাক্টারা সংস্থাগুলির একটি জনপ্রিয় র্যাঙ্কিং হ্যালুসিনেশনের হারগুলি মূল্যায়ন করেছে, যা ইঙ্গিত করে যে ডিপসেক-আর 1 মডেল সহ ডিপসেক-আর 1 মডেল, ডিপসেক-আর 1 মডেল সহ, বিকাশকারীর আগের মডেলের তুলনায় হ্যালুসিনেশনের হার বাড়িয়েছে। এই ধরণের মডেল একাধিক পদক্ষেপের মাধ্যমে প্রতিক্রিয়ার আগে যুক্তি রেখাটি প্রদর্শন করে।
ওপেনই বলেছেন, যুক্তি প্রক্রিয়াটি অদ্ভুত হওয়া উচিত নয়। “যদিও আমরা ও 3 এবং ও 4-মিনিটে দেখা উচ্চতর হ্যালুসিনেশনের গতি হ্রাস করার জন্য সক্রিয়ভাবে কাজ করছি, তবে হ্যালুসিনেশনগুলি অনুমানের মডেলগুলিতে সহজাতভাবে বেশি সাধারণ নয়,” ওপেনএআইয়ের এক মুখপাত্র বলেছেন। “আমরা নির্ভুলতা এবং নির্ভরযোগ্যতা উন্নত করতে সমস্ত মডেলগুলিতে হ্যালুসিনেশনগুলি অধ্যয়ন চালিয়ে যাব।”
এলএলএমের কিছু সম্ভাব্য অ্যাপ্লিকেশনগুলি হ্যালুসিনেশন দ্বারা লাইনচ্যুত হতে পারে। এমন একটি মডেল যা সর্বদা মিথ্যাচারের চিত্র তুলে ধরে এবং ফ্যাক্ট চেকিং প্রয়োজন কোনও দরকারী গবেষণা সহকারী নয়; একটি কাল্পনিক মামলার উদ্ধৃতি দিয়ে একটি প্যারালেগাল রোবট অ্যাটর্নিকে সমস্যায় ফেলবে। পুরানো নীতিগুলি সক্রিয় থাকার দাবি করে গ্রাহক পরিষেবা এজেন্টরা সংস্থার জন্য মাথা ব্যথার কারণ হবে।
তবে এআই সংস্থাগুলি প্রাথমিকভাবে দাবি করেছিল যে সময়ের সাথে সাথে সমস্যাটি পরিষ্কার হবে। প্রকৃতপক্ষে, প্রথম লঞ্চের পরে, মডেল প্রতিটি আপডেটের জন্য হ্যালুসিনেশনগুলি হ্রাস করে। যাইহোক, উচ্চ হ্যালুসিনেশন গতির সাম্প্রতিক সংস্করণটি আখ্যানকে জটিল করে তোলে – যুক্তিটি ত্রুটিযুক্ত কিনা।
ভেক্টরার র্যাঙ্কিংগুলি ডকুমেন্টেশনে মডেলগুলিকে র্যাঙ্ক করবে যা তাদের সত্যিকারের ধারাবাহিকতার ভিত্তিতে তাদের সংক্ষিপ্তসার করে। ভ্যাকারার ফরেস্ট শেং বাও বলেছিলেন যে এটি সুপারিশ করে যে “ওপেনএআই এবং গুগলের সিস্টেমগুলির জন্য” হ্যালুসিনেশনের হার প্রায় একই রকম “, ভোরেস্ট শেং বাও ভ্যাকারার ফরেস্ট এবং গুগলের সিস্টেমে রয়েছেন। গুগল অন্য কোনও মন্তব্য সরবরাহ করে না। বিএও বলেছে যে র্যাঙ্কিংয়ের উদ্দেশ্যে, প্রতিটি মডেলের সামগ্রিক র্যাঙ্কিংয়ের মতো নির্দিষ্ট হ্যালুসিনেশনের সংখ্যা ততটা গুরুত্বপূর্ণ নয়।
তবে এই র্যাঙ্কিং এআই মডেলগুলির তুলনা করার সর্বোত্তম উপায় নাও হতে পারে।
একদিকে, এটি বিভিন্ন ধরণের হ্যালুসিনেশনকে বিভ্রান্ত করে। ভেক্টারা দলটি উল্লেখ করেছে যে যদিও ডিপসেক-আর 1 মডেলটি 14.3% সময় হ্যালুসিনেশনে হ্যালুসিনেট করা হয়েছিল, তাদের বেশিরভাগই “দানশীল” ছিল: আসলে লজিকাল যুক্তি বা বিশ্ব জ্ঞানের দ্বারা সমর্থিত উত্তরগুলি পেয়েছিল, তবে আসলে মূল পাঠ্যে উপস্থিত হয়নি, এবং রোবটকে সংক্ষিপ্তসার করতে বলা হয়েছিল। ডিপসেক অন্য কোনও মন্তব্য সরবরাহ করে না।
এই র্যাঙ্কিংয়ের সাথে আরেকটি সমস্যা হ’ল পাঠ্য সংক্ষিপ্তসার ভিত্তিক পরীক্ষাটি “ভুল আউটপুটটির হার নির্দিষ্ট করে না [LLMs] ওয়াশিংটন বিশ্ববিদ্যালয়ের এমিলি বেন্ডার ড।
বেন্ডার বলেছিলেন যে মডেলগুলি প্রম্পটকে অনুরোধ জানাতে “পরবর্তী শব্দটি কী হতে পারে” এর প্রশ্নের উত্তর বারবার উত্তর দিয়েছিল, তাই তারা পাঠ্যে কী তথ্য উপলব্ধ তা সাধারণ অর্থে বুঝতে পারে না। যাইহোক, অনেক প্রযুক্তি সংস্থাগুলি আউটপুট ত্রুটিগুলি বর্ণনা করার সময় প্রায়শই “মায়া” শব্দটি ব্যবহার করে।
বাইন্ডার বলেছিলেন, “‘অ্যালিউশন’ একটি দ্বিগুণ সমস্যা। “একদিকে, এটি পরামর্শ দেয় যে একটি ভুল আউটপুট হ’ল একটি বিকৃতি যা হ্রাস করা যেতে পারে, অন্যদিকে সিস্টেমটি ভিত্তিযুক্ত, নির্ভরযোগ্য এবং বিশ্বাসযোগ্য। অন্যদিকে, এটি মেশিনগুলি নৃতাত্ত্বিক চাপিয়ে দেওয়ার জন্য কাজ করে-হ্যালুসিনেশন এমন কিছু যা লোকেরা বুঝতে পারে। [and] বড় ভাষার মডেলগুলি কিছুই বুঝতে পারে না। “
প্রিন্সটন বিশ্ববিদ্যালয়ের অরবিন্দ নারায়ণান বলেছেন, সমস্যাটি হ্যালুসিনেশনের বাইরে চলে গেছে। মডেলগুলি কখনও কখনও অন্যান্য ভুল করে, যেমন অবিশ্বাস্য উত্সগুলি ব্যবহার করা বা পুরানো তথ্য ব্যবহার করা। কেবল এআই -তে আরও প্রশিক্ষণের ডেটা এবং কম্পিউটিং শক্তি নিক্ষেপ করা অগত্যা সহায়তা করে না।
ফলাফলটি হ’ল আমাদের ত্রুটি-প্রবণ এআই নিয়ে বাঁচতে হতে পারে। কিছু ক্ষেত্রে, ফ্যাক্ট-চেক করার সময় এআই উত্তর দেওয়ার সময় কেবল নিজেরাই গবেষণা করার চেয়ে দ্রুত কাজের জন্য এই জাতীয় মডেলগুলি ব্যবহার করা ভাল। তবে সর্বোত্তম পদক্ষেপটি হ’ল এআই চ্যাটবটের উপর নির্ভর করা এড়াতে পারে যা সম্পূর্ণ তথ্য সরবরাহ করতে।
থিম: