دستاوردهای یادگیری عمیق(InTec)

Meta, Deepmind, Cornel, Nvidia

توی یک همکاری؛ جواب این سوال رو دادند که:

How much do LLM memorize

تو مسیر داشتم نگاهی می‌نداختم، ولی باید دقیق بخونم. ولی 3.6bit خیلی خوب نیست

👍9❤2

4.13K views04:47

این مدل رو هم داشته باشید به منظور راحتی در طراحی سایت و ساخت کامپوننت‌های React خیلی برای ساخت کل پروژه روش حساب نکنید (برای حالت react میگم)
ولی کامپوننت‌های خوبی میسازه

UIGEN-T3

huggingface.co

Tesslate/UIGEN-T3-14B-Preview-Q8_0-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍14❤3

3.65K viewsedited 16:16

دستاوردهای یادگیری عمیق(InTec)

حتماً این کتاب رو بخونید؛ من Draft اولیه این کتاب از یکی از دوستان بهم رسید (خیلی وقت قبل)

وقتی خوندم همون چندتا فصل اول، لذت بردم واقعاً و شدیداً منتظرش بودم.

حالا که اومده سرفصل‌های کاملش رو دیدم و بنظرم خیلی بهتر از چیزی هست که فکر می‌کردم (البته امیدوارم همش به خوبی draft نوشته شده باشه)

شخصاً توی اولین فرصت خوندن کاملش رو شروع می‌کنم (الان روی ۳ تا کتاب دیگه هستم) و اگر یادم نره بعد از خوندنش نظر دقیق رو روی نسخه منتشر شده خواهم گفت.

Packt Pub LLM Design patterns

Packt

LLM Design Patterns | Data | Paperback

A Practical Guide to Building Robust and Efficient AI Systems. Top rated Data products.

👍18❤7

6.71K views07:32

دستاوردهای یادگیری عمیق(InTec)

تست‌های مختلف روی o3-pro برای تسک‌های برنامه نویسی زمانی ببیشتر از 15 دقیقه برای thinking رو نشون میده؛ نتایج خوب هست ولی واقعا انقدر صبر کردن مناسب هست ؟

ترجیح میدم فکر کردن وظیفه من باشه و تابپ کردن وظیفه LLM یا نهایتا پیشنهاد دادن ولی زیر ۱ دقیقه جواب بگیرم.
قراره به یک دیوار بخوریم ؟ یا اینکه تکنیک‌های دیگه مشکل سرعت رو حل خواهند کرد؟

راستی groq هم Qwen3-32B رو اضافه کرده و سرعت فوق‌العاده‌ای داره

👍17❤6

3.05K views08:27

دستاوردهای یادگیری عمیق(InTec)

این پست
https://www.tg-me.com/pyHints/801
و پست بعدیش رو بخونید.

معمولاً پست‌های من توی کانال‌های مختلف (خودم) پراکنده هست.

برای همین ۸۰٪ سوالات تکراری رو جواب نمیدم.

لیست کانال‌ها :

@pytens
@pyhints
@pyrust
@per3onal
@pytensMusic

Python Hints

بیشترین سوال:

ما امکان خرید کتاب‌های معرفی شده توی کانال رو نداریم، چاپ شده هم گرون هست.

۱- شخصاً مخالف خرید کتاب‌های چاپ شده هستم، چون هیچکدوم هیچ پولی به نویسنده نمی‌ده

چند مورد رو به نویسنده هم ایمیل زدم، تأیید کردند. (قدیم)

۲- کتاب به هیچ‌وجه توی…

❤9👍3

3.32K viewsedited 11:18

دستاوردهای یادگیری عمیق(InTec)

کانفیگ لوکال بنده :

services:
  ollama:
    volumes:
      - ~/.ollama:/root/.ollama
    container_name: ollama
    pull_policy: always
    tty: true
    ports:
      - 11434:11434
    restart: unless-stopped
    image: ollama/ollama:${OLLAMA_DOCKER_TAG-latest}
    deploy:
      resources:
        reservations:
          devices:
            - driver: ${OLLAMA_GPU_DRIVER-nvidia}
              count: ${OLLAMA_GPU_COUNT-2}
              capabilities:
                - gpu

  open-webui:
    build:
      context: .
      args:
        OLLAMA_BASE_URL: "/ollama"
      dockerfile: Dockerfile
    image: ghcr.io/open-webui/open-webui:${WEBUI_DOCKER_TAG-main}
    container_name: open-webui
    volumes:
      - open-webui:/app/backend/data
    depends_on:
      - ollama
    ports:
      - ${OPEN_WEBUI_PORT-3000}:8080
    environment:
      - "OLLAMA_BASE_URL=http://ollama:11434"
      - "WEBUI_SECRET_KEY="
    extra_hosts:
      - host.docker.internal:host-gateway
    restart: unless-stopped

  qdrant:
    volumes:
      - qdrant_db:/qdrant/storage:z
    image: qdrant/qdrant
    container_name: qdrant
    ports:
      - 6333:6333
      - 6334:6334

volumes:
  open-webui: {}
  qdrant_db: {}

فقط این دیفالت رو از ۲ به تعداد کارت گرافیک تغییر بدید :

${OLLAMA_GPU_COUNT-2}

و از داکیومنت ollama موارد لازم برای راه‌اندازی docker-nvidia رو نصب کنید.

بعد از این مرحله مدل‌های مورد نظرتون رو دانلود کنید:

for model in devstral gemma3:27b deepseek-r1:32b qwen3:32b nomic-embed-text; do                                                                                              
    docker exec -it ollama ollama pull "$model"
done

وقتی این موارد تموم شد roocode رو روی vscode نصب کنید (پیشنهاد می‌کنم از بخش تنظیمات experimental قابلیت codebase indexing رو فعال کنید)

embedding provider: Ollama
Model: nomic-embed-text
ollama url: http://localhost:11434
Qdrant url: http://localhost:6333

علاوه بر این از طریق http://localhost:3000 می‌تونید openweb-ui رو هم داشته باشید.

❤20👍11

4.18K views12:50

دستاوردهای یادگیری عمیق(InTec)

برای اینکه
Deepseek coder v3 671B
رو اجرا کنید احتمالا راهکاری به ذهنتون نمیرسه که بیشتر از ۱.۳ توکن خروجی بده تازه به شرط اینکه بیش از ۰.۵ ترابایت رم هم داشته باشید.

بعد از اینکه کانفیگ لوکال خودم رو گذاشتم و روی سورس کدهام تست گرفتم دیدم چندتا چیز برای بهبود نتایج لازم دارم :

۱- استفاده از embedding بهتر مثل Qwen3-8b
۲- استفاده همزمان از حداقل ۳ مدل
۳- مدل نهایی به جهت بررسی کدهای تولید شده توسط ۳ مدل دیگه

اگر این ترکیب رو استفاده کنم؛ فکرم این بود که ۳ مدل زیری رو بدون think اجرا کنم ولی مدل‌های تخصصی coder باشند و مدلی که قابلیت think داره رو بذارم که نهایتا با یک context خوب + embedding خوب بتونه کار رو در بیاره.

اول اومدم ایده رو تست کردم؛ یک مقدار هزینه و سرعت و ... رو گذاشتم کنار هر ۳ تا مدل رو تک تک اجرا کردم (هرکدوم روی یکی از GPU ها) نتابجشون رو ذخیره کردم
و درنهایت بصورت دستی نتابج رو دادم به مدل think که خیلی دقت کدهای تولید شده بالارفت
استایل رو رعایت میکرد
جاهایی از کد که رعایت نکرده بودم رو هم بهم گزارش میداد و ...
اینجوری بودم که خب اگر این روی لوکال کار بکنه من که دیگه cloud لازم نخواهم داشت.

از نظر زمانی هم بصرفه بود؛ اگر و تنها اگر می‌تونستم هر ۳ مدل لایه پایین‌تر رو همزمان اجرا کنم؛‌خلاصه که گشتم دنبال راهکارهای منطقی همزمان اجرا کردن؛ یادمون باشه که اینجا مدل‌ها معماری‌های متفاوتی دارند و مثل حالتی نیست که معماری زیرین مدل‌ها یکی باشه و ... (اگر اون تکنیک رو بلدید برای بهینه پروداکشن کردن)

بگذریم توی تحقیقات رسیدم به Ktransformer (مرسی توییتر) :

Local 671B DeepSeek-Coder-V3/R1: Running its Q4_K_M version using only 14GB VRAM and 382GB DRAM

ایده جذاب این تیم اینه که بخش‌هایی که هزینه سنگین برای اجرا داره رو روی GPU میبره و باقی رو میده خود CPU اجرا کنه منم که ۲ تا GPU دارم اگر بشه بجای هر مدل ۲۲ گیگ به هر مدل ۱۱ گیگ گرافیک بدم مشکلم حل میشه. مخصوصا اینکه از نظر RAM سیستم من ۱۲۸ گیگ رم داره که این روزا توی استفاده‌های سنگین هم نهایتا به ۵۰ گیگ نیاز هست.

آیا این فریمورک مشکل من رو حل می‌کنه ؟ کوتاه : خیر
اما ایده خوبی رو بهم داد.

من دارم تلاش می‌کنم از راهکاری که گیمرها چندسال قبل برای تقسیم GPU بین بازی‌ها استفاده میکردند استفاده کنم (تا این لحظه موفق نبودم ولی کل چیز جدید یادگرفتم)
ترکیب این راهکار با دستاورد این کد احتمالا من رو بتونه به جاهای خوبی برسونه اگر هم نشد اشکالی نداره یادگیری مفیدی بوده (حتی تا همینجا) و البته به کمک KTransformers می‌تونم مدل 70B رو روی سیستم خودم اجرا کنم بدون دردسر.

احتمالا شما هم بتونی مدل 14B رو بجای 7B روی سیستم خودت بیاری (شاید لازم باشه کمی دست به کد بشی اگر مدل پشتیبانی نمیشه هنوز)

Ktransformers Github

GitHub

GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations

A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations - kvcache-ai/ktransformers

❤21👍6

5.46K viewsedited 20:18

دستاوردهای یادگیری عمیق(InTec)

Forwarded from Python Hints

تعجب کردید چطوری جنگنده‌های اسرائیلی به آسمان مشهد رسیدند ؟

من نکردم؛ چون آسمان بی‌صاحاب شد وقتی سپهبد #نادر_جهانبانی رو برای حفظ حریم هوایی به ناحق کشتید.

حتی موقعی که کشتیدش هم لباس خدمت به وطن رو از تنش در نیاورد ♥️💔

❤153👍5

3.54K views16:20

دستاوردهای یادگیری عمیق(InTec)

Forwarded from Python Hints

#ایران

وقتی این روزها رو پشت سر گذاشتیم جون مادرتون چندتا کار رو انجام بدید :

۱- از روسیه فاصله بگیرید؛ به جرم جاسوسی بگیرید هرکی که اسم روسیه رو آورد.
نه سوخو داریم
نه s300-s400
نه حمایت
فقط پول رو خرجش کردیم؛ کشوری که پاره شدیم گفتیم تو تاریخ همیشه نامرد بوده برای ما.

۲- مهاجرین غیرقانونی رو اخراج کنید؛ جرم انگاری سنگین بذارید برای ورود‌های غیرقانونی.
با خانواده اخراجشون کنید؛ اینکه فقط مرداشون رو اخراج کنید دوای درد نیست.

۳- تریبون رو از رائفی‌پورها بگیرید؛ بوالله که اگر این‌ها جاسوس نباشند دوست نیستند.
خریت این‌ها مملکت رو به این روز انداخت؛ نذاشتند با دنیا تعامل کنیم.
نذاشتند بخش نظامی تقویت بشه؛ انقدر که با جفنگیات خواستند جلوی بمب و موشک و ... رو بگیرند.
من هنوز هم باور ندارم که این‌ها انقدر احمق باشند؛ تنها موردی که به ذهنم میرسه جاسوس بودن هست.

نمی‌دونم چی بگم دیگه ...
به امید روزای روشن برای ایران عزیزم ♥️

❤105👍52

3.55K views21:19

دستاوردهای یادگیری عمیق(InTec)

#book

برای ریاضیات AI نمیشه یک کتاب معرفی کرد و بعدش ادعا کرد دیگه هیچی نیاز نیست.

اما این کتاب برای حال حاضر و دستاوردهای فعلی هوش مصنوعی کتاب کاملی هست و ریاضیاتی که لازم دارید رو آموزش میده بنظرم ارزش خوندن توی این روزها رو داره.

پ.ن :

خودم کتاب رو خوندم؛ مثل همیشه کتابی که نخونده باشم رو معرفی نمی‌کنم.

❤47👍5

4.09K viewsedited 07:50

دستاوردهای یادگیری عمیق(InTec)

یک شرکتی هم؛ معروف
نظرسنجی گذاشته که ببینه آیا کاربرهاش دسترسی به اینترنت دارند یا خیر.

بنظرتون این نظرسنجی رو کجاها گذاشته ؟

اینستاگرام؛ تلگرام؛ توییتر

بعد می‌گه من تیم مارکتینگ و دیتای بزرگی دارم؛ کمپ آموزشی هم میذاره تازه 😂

یعنی بایاس دیتا ازین بزرگتر و تابلوتر ؟
فقط عشق است اونایی که زدند؛ نه نداریم.

به خدا الان میرن همینایی که زدن نداریم رو هم بعنوان یک دسته میگیرند برای تصمیم گیری.

بقول دوستان :
ازینجا تا خود silicon valley خنده

👍61❤9

3.93K viewsedited 08:22

دستاوردهای یادگیری عمیق(InTec)

IBM TechXchange 2025 Pre-conference watsonx Hackathon.

August 1 - 17

هکاتون IBM راجب GenAI رفته برای برگزاری ثبت نام برای تمام سطوح آزاد هست؛ این هکاتون آموزش و منابع و ... هم داره

جوایز خوبی هم داره؛ اگر علاقه داشتید گوگل کنید.

👍14❤2

8.93K views18:14

دستاوردهای یادگیری عمیق(InTec)

Forwarded from Python Hints

و تمام!!!!

اعلام آتش‌بس توسط هر دو طرف.

آپدیت :

عجب خر تو خری شد؛

عراقچی؛ از ۴ صبح آتش بس می‌تونه صورت بگیره.
اسرائیل میزنه تا آخرین ثانیه‌ها

سپاه؛ خب ماهم با چندتا موشک جواب میدیم چون ثانیه‌های آخر سنگین زده

اسرائیل؛ اینارو رهگیری می‌کنیم، میگیم به اهداف جنگ رسیدیم و تمام.

خبرگزاری‌های آمریکا؛ ونس، ویتکاف، روبیو با مقامات ایران مذاکره مستقیم و غیرمستقیم داشتند.
ترامپ؛ چندتا پست درمورد صلح:
بخصوص، صلح با زور

همه چیز بنظر صلح میاد؛

سپاه، دوباره شلیک ۱ موشک به سمت حیفا.
مثل اینکه آتش بس پذیرفته نشده.

بنظر میاد؛ ترامپ هم پست‌هاش راجب صلح رو پاک کرده (کندی اینترنت اجازه بررسی به بنده نداد)

واقعاً خاورمیانه از فیلم ترکی و فیلم هندی هم غیرقابل پیش‌بینی تر هست

👍18❤2

2.45K views02:36

دستاوردهای یادگیری عمیق(InTec)

این مقاله خیلی خیلی توی مباحث مربوط به Quantization مهم هست (حتما بخونید)

قبلتر BitNet توی مقالات دیگه نشون داده بود که نسخه Quantize شده حتی 1bit مدلی با 400B پارامتر می‌تونه حتی بهتر از مدل 70B پارامتری FP16 باشه درحالی که هر دو میزان مشابه‌ای سخت‌افزار مصرف می‌کنند.

اما توی مقالات بعدی BitNet1.58 که قبلتر معرفی کردم؛ نشون دادند با اضافه کردن 0 به Quantization چطور کمک کردند که هم مدل نتایج بهتری رو نشون بده هم سرعت inference بالا بره (به زبان ساده جایی که صفر میشه عملکردی مثل Dropout اتفاق میوفته برای Inference)

اما یک مشکل دیگه هم بود K,V cache رو کسی سراغش نرفته بود؛ توی این مقاله اینکار رو کردند و حالا همون مدل قبلی با Activation که کوانتایز شده با مصرف مموری کمتر می‌تونه context بیشتری رو نگهداره.

خلاصه که بخونید.

BitNet a4.8: 4-bit Activations for 1-bit LLMs

آپدیت:
این رو هم همکارم فرستاد (شخصا هنوز نخوندم) ولی مثل اینکه هدف کم کردن هزینه برای آموزش هست.

BitNet b1.58 2B4T Technical Report
microsoft/bitnet-b1.58-2B-4T on 🤗

👍14

3.97K viewsedited 07:31

دستاوردهای یادگیری عمیق(InTec)

چندتا پروژه مهم که توی نبود اینترنت ممکنه از دست داده باشید خبراش رو :

Nano-vLLM: A lightweight vLLM implementation built from scratch.

nanoVLM: simplest repository for training/finetuning a small sized Vision-Language Model with a lightweight implementation in pure PyTorch.

Magenta RT: open-weights live music model that allows you to interactively create, control and perform music in the moment.

GitHub

GitHub - GeeeekExplorer/nano-vllm: Nano vLLM

Nano vLLM. Contribute to GeeeekExplorer/nano-vllm development by creating an account on GitHub.

❤18👍7

5K views08:06

دستاوردهای یادگیری عمیق(InTec)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤32

16:56

دستاوردهای یادگیری عمیق(InTec)

مدل‌های جدید :

Gemma 3n full 
Qwen VLo
Baidu (a series of open source models)
Tencent Hunyuan A13B

این ۴ تا لیست مدل‌های جدید هفته هست که Tencent Hunyuan توشون خیلی خودنمایی کرده‌ و می‌کنه.

👍14❤6

3.08K views17:41

دستاوردهای یادگیری عمیق(InTec)

IBM
سال 2023 نزدیک به ۸۰۰۰ نفر رو اخراج کرد.
چرا چون هوش مصنوعی جاشون رو گرفته بود؛

حالا تقریباً همون تعداد رو استخدام کرده اما نه برای همون مشاغل؛
افرادی که اخراج شدند تو زمینه HR بودند و افرادی که استخدام شدن متخصص در زمینه‌های دیگه

مارکتینگ، فروش و از همه مهمتر مهندسی نرم‌افزار
دقیقاً خبر قبلی رو یادم هست که می‌گفتند AI شغل برنامه‌نویس‌ها رو گرفت و ...

اون زمان گوگل و مایکروسافت و IBM و ... همه اخراج داشتند.
اما توی مدت کوتاهی همشون همون تعداد آدم رو توی زمینه‌های تخصصی‌تر استخدام کردند

این مدت بسیار گفتم، چیزی به اسم جونیور (مدلی که امروز داریم دیگه وجود نخواهد داشت)

👍49❤17

3.13K views04:41

دستاوردهای یادگیری عمیق(InTec)

واقعا نمیشه توی استفاده عادی Gemini CLI رو به limit نسخه رایگان رسوند.
مگر اینکه به عمد بهش درخواست زیاد بزنید
یا چت‌های مسخره باهاش بکنید.

باید به گوگل گفت؛ لعنتی مگه چقدر دیتا لازم داری (یا هزینه کرال و گرفتن دیتا چقدر هست که) به همه داری این دسترسی رو رایگان میدی ؟

👍42❤8

2.5K views19:05

دستاوردهای یادگیری عمیق(InTec)

مدل ۷ میلیاردی apple بر اساس Diffusion هارو تست می‌کردم

واقعاً سرعت خوبی داره.
همچنان Diffusion ها توی LLM مشکلات زیادی دارند ولی برای تسک‌های کوچک بسیار سرعت و دقت خوبی داره.

بیزینس البته علاقه‌ای به این تکنیک هنوز نداره؛ ولی برای استفاده شخصی مورد خوبی هست، مقاله اپل رو هم بخونید کار بیشتر تحقیقاتی بنظر می‌رسه (به دلیل همون محدودیت‌هایی که صحبتش شده قبلاً)

👍19❤3

2.04K views16:52

2025/07/11 18:21:56
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>