درباره

این یک گزارش خودکار روزانه درباره جنگ آمریکا و اسرائیل علیه ایران است. خط لوله، اخبار را از منابع متعدد با دیدگاه‌های مختلف دریافت می‌کند، رویدادهای تکراری را حذف می‌کند، موارد مهم را فیلتر می‌کند، بر اساس موضوع دسته‌بندی می‌کند، و یک گزارش فشرده تولید می‌کند.

منابع:

الجزیره (انگلیسی، RSS)
رویترز (انگلیسی، RSS)
فرانس ۲۴ (انگلیسی، RSS)
یورونیوز (انگلیسی، RSS)

نحوه کار:

این خط لوله روزانه و توسط یک کرون‌جاب در ساعت ۸ صبح به وقت ونکوور اجرا می‌شود. ابتدا بررسی می‌کند که آیا از آخرین اجرای موفق تاکنون روزی از قلم افتاده است و در صورت لزوم قبل از اجرای گزارش امروز، آن‌ها را تکمیل می‌کند.

هر اجرا دایرکتوری مجزای خود را دارد. خط لوله از ده مرحله عبور می‌کند که هر مرحله خروجی مرحله قبل را می‌خواند و خروجی خود را می‌نویسد.

مرحله دریافت، محتوای خام را از چهار منبع بالا از طریق فیدهای RSS دریافت می‌کند. اگر یکی از منابع در دسترس نباشد، خط لوله آن را ثبت کرده و با بقیه ادامه می‌دهد. تنها زمانی متوقف می‌شود که همه منابع شکست بخورند.

یک رویداد یکسان معمولاً در چندین منبع منعکس می‌شود. مرحله حذف تکراری‌ها با استفاده از TF-IDF بردارهای عنوان و متن انگلیسی هر مورد را می‌سازد و شباهت کسینوسی زوجی را محاسبه می‌کند. مواردی که شباهت‌شان از آستانه‌ای بالاتر است در یک خوشه قرار می‌گیرند. طولانی‌ترین مورد هر خوشه به عنوان «اصلی» انتخاب می‌شود و بقیه به عنوان منابع مرتبط علامت‌گذاری می‌شوند.

موارد اصلی از یک فراخوانی LLM عبور می‌کنند که ارتباط آن‌ها با درگیری را می‌سنجد. هر مورد یک تصمیم شامل/خارج، امتیاز اطمینان و دلیل یک‌خطی دریافت می‌کند. موارد غیر اصلی، تصمیم خوشه خود را به ارث می‌برند.

همه مواردی که شامل شده‌اند در سطل‌های موضوعی دسته‌بندی می‌شوند: عملیات‌های نظامی، درون ایران، سیاست آمریکا، سیاست اسرائیل، دیپلماسی، بازیگران منطقه‌ای، بین‌المللی، اقتصاد یا سایر.

ردیابی تحولات، موارد هفت روز گذشته را بارگذاری کرده و شباهت را با موارد امروز محاسبه می‌کند. وقتی تطابقی یافت شود، LLM رابطه را طبقه‌بندی می‌کند: «جدید» (بدون پوشش قبلی)، «ادامه» (همان داستان، بدون اطلاعات جدید)، یا «تحول» (همان داستان با اطلاعات جدید). ادامه‌ها از گزارش حذف می‌شوند تا از تکرار جلوگیری شود.

موارد نهایی بر اساس سطل سازماندهی شده و به صورت گزارش روزانه قالب‌بندی می‌شوند. سطل‌هایی که موارد بیشتر یا با اطمینان بالاتر دارند ابتدا نمایش داده می‌شوند. یک پاس ویرایشی LLM پیش‌نویس را از نظر کیفیت بازبینی می‌کند، تشخیص سوگیری را روی نحوه قاب‌بندی رویدادها توسط منابع مختلف اجرا می‌کند، و ادعاهای تک‌منبعی را که نیاز به احتیاط دارند پرچم‌گذاری می‌کند. مرحله تأیید بررسی می‌کند که همه آدرس‌های مقالات در گزارش هنوز فعال هستند. لینک‌های مرده پرچم‌گذاری می‌شوند. مرحله نهایی یک پست وبلاگی تولید کرده و آن را در این سایت منتشر می‌کند.

هر فراخوانی LLM و هر درخواست HTTP در یک لاگ کامل با ورودی/خروجی، تعداد توکن و ردیابی هزینه ثبت می‌شود. هر اجرا در محدوده بودجه قابل تنظیم باقی می‌ماند.

محدودیت‌ها:

این یک سیستم خودکار است. هوش مصنوعی ممکن است طبقه‌بندی اشتباه انجام دهد یا ظرافت‌ها را از دست بدهد.
در دسترس بودن منابع متفاوت است. سربرگ هر گزارش را برای منابعی که در دسترس نبوده‌اند بررسی کنید.

مدیریت سوگیری

هر منبع خبری در نحوه قاب‌بندی، تأکید و حذف اطلاعات سوگیری دارد. این خط لوله این سوگیری‌ها را ردیابی می‌کند و از آن‌ها برای تولید گزارش متوازن‌تر استفاده می‌کند. یادداشت‌های رفع سوگیری به خلاصه‌ساز داده می‌شوند، تشخیص خودکار در مرحله ویرایشی اجرا می‌شود، و فقط الگوهای تأیید شده بر خروجی اثر می‌گذارند.

برای دیدن فهرست کامل الگوهای تشخیص داده شده برای هر منبع، همراه با نمونه‌ها و روش‌های خنثی‌سازی، به صفحه مدیریت سوگیری مراجعه کنید.

حمایت مالی از این پروژه

این خط لوله روی سرویس‌های رایگان گیت‌هاب، کلودفلر و ریسند اجرا می‌شود، اما تماس‌های مدل زبانی روزی چند دلار هزینه دارد. اگر این گزارش روزانه برایتان مفید است، می‌توانید در پوشش هزینه‌ها کمک کنید.

حمایت از این پروژه

کد منبع: github.com/k1monfared/news_reader