درباره
این یک گزارش خودکار روزانه درباره جنگ آمریکا و اسرائیل علیه ایران است. خط لوله، اخبار را از منابع متعدد با دیدگاههای مختلف دریافت میکند، رویدادهای تکراری را حذف میکند، موارد مهم را فیلتر میکند، بر اساس موضوع دستهبندی میکند، و یک گزارش فشرده تولید میکند.
منابع:
- الجزیره (انگلیسی، RSS)
- رویترز (انگلیسی، RSS)
- فرانس ۲۴ (انگلیسی، RSS)
- یورونیوز (انگلیسی، RSS)
نحوه کار:
این خط لوله روزانه و توسط یک کرونجاب در ساعت ۸ صبح به وقت ونکوور اجرا میشود. ابتدا بررسی میکند که آیا از آخرین اجرای موفق تاکنون روزی از قلم افتاده است و در صورت لزوم قبل از اجرای گزارش امروز، آنها را تکمیل میکند.
هر اجرا دایرکتوری مجزای خود را دارد. خط لوله از ده مرحله عبور میکند که هر مرحله خروجی مرحله قبل را میخواند و خروجی خود را مینویسد.
مرحله دریافت، محتوای خام را از چهار منبع بالا از طریق فیدهای RSS دریافت میکند. اگر یکی از منابع در دسترس نباشد، خط لوله آن را ثبت کرده و با بقیه ادامه میدهد. تنها زمانی متوقف میشود که همه منابع شکست بخورند.
یک رویداد یکسان معمولاً در چندین منبع منعکس میشود. مرحله حذف تکراریها با استفاده از TF-IDF بردارهای عنوان و متن انگلیسی هر مورد را میسازد و شباهت کسینوسی زوجی را محاسبه میکند. مواردی که شباهتشان از آستانهای بالاتر است در یک خوشه قرار میگیرند. طولانیترین مورد هر خوشه به عنوان «اصلی» انتخاب میشود و بقیه به عنوان منابع مرتبط علامتگذاری میشوند.
موارد اصلی از یک فراخوانی LLM عبور میکنند که ارتباط آنها با درگیری را میسنجد. هر مورد یک تصمیم شامل/خارج، امتیاز اطمینان و دلیل یکخطی دریافت میکند. موارد غیر اصلی، تصمیم خوشه خود را به ارث میبرند.
همه مواردی که شامل شدهاند در سطلهای موضوعی دستهبندی میشوند: عملیاتهای نظامی، درون ایران، سیاست آمریکا، سیاست اسرائیل، دیپلماسی، بازیگران منطقهای، بینالمللی، اقتصاد یا سایر.
ردیابی تحولات، موارد هفت روز گذشته را بارگذاری کرده و شباهت را با موارد امروز محاسبه میکند. وقتی تطابقی یافت شود، LLM رابطه را طبقهبندی میکند: «جدید» (بدون پوشش قبلی)، «ادامه» (همان داستان، بدون اطلاعات جدید)، یا «تحول» (همان داستان با اطلاعات جدید). ادامهها از گزارش حذف میشوند تا از تکرار جلوگیری شود.
موارد نهایی بر اساس سطل سازماندهی شده و به صورت گزارش روزانه قالببندی میشوند. سطلهایی که موارد بیشتر یا با اطمینان بالاتر دارند ابتدا نمایش داده میشوند. یک پاس ویرایشی LLM پیشنویس را از نظر کیفیت بازبینی میکند، تشخیص سوگیری را روی نحوه قاببندی رویدادها توسط منابع مختلف اجرا میکند، و ادعاهای تکمنبعی را که نیاز به احتیاط دارند پرچمگذاری میکند. مرحله تأیید بررسی میکند که همه آدرسهای مقالات در گزارش هنوز فعال هستند. لینکهای مرده پرچمگذاری میشوند. مرحله نهایی یک پست وبلاگی تولید کرده و آن را در این سایت منتشر میکند.
هر فراخوانی LLM و هر درخواست HTTP در یک لاگ کامل با ورودی/خروجی، تعداد توکن و ردیابی هزینه ثبت میشود. هر اجرا در محدوده بودجه قابل تنظیم باقی میماند.
محدودیتها:
- این یک سیستم خودکار است. هوش مصنوعی ممکن است طبقهبندی اشتباه انجام دهد یا ظرافتها را از دست بدهد.
- در دسترس بودن منابع متفاوت است. سربرگ هر گزارش را برای منابعی که در دسترس نبودهاند بررسی کنید.
مدیریت سوگیری
هر منبع خبری در نحوه قاببندی، تأکید و حذف اطلاعات سوگیری دارد. این خط لوله این سوگیریها را ردیابی میکند و از آنها برای تولید گزارش متوازنتر استفاده میکند. یادداشتهای رفع سوگیری به خلاصهساز داده میشوند، تشخیص خودکار در مرحله ویرایشی اجرا میشود، و فقط الگوهای تأیید شده بر خروجی اثر میگذارند.
برای دیدن فهرست کامل الگوهای تشخیص داده شده برای هر منبع، همراه با نمونهها و روشهای خنثیسازی، به صفحه مدیریت سوگیری مراجعه کنید.
حمایت مالی از این پروژه
این خط لوله روی سرویسهای رایگان گیتهاب، کلودفلر و ریسند اجرا میشود، اما تماسهای مدل زبانی روزی چند دلار هزینه دارد. اگر این گزارش روزانه برایتان مفید است، میتوانید در پوشش هزینهها کمک کنید.
کد منبع: github.com/k1monfared/news_reader