അമേരിക്കയുടെ നിരോധനം നിലനില്ക്കുന്ന സമയത്ത് ചൈന ഇതെങ്ങനെ സാധിച്ചു? അമേരിക്കന് ടെക്ക് ഭീമന്മാരുടെ ഓഹരി വിലകളെ പന്താടിയ ഡീപ് സീക്ക് എന്ന കുഞ്ഞന് ചൈനീസ് കമ്പനി കുത്തക പൊളിക്കുമ്പോള്: ജോയ് സെബാസ്റ്റിയന് എഴുതുന്നു
ഡീപ് സീക്ക് എന്ന കുഞ്ഞന് ചൈനീസ് കമ്പനി കുത്തക പൊളിക്കുമ്പോള്: ജോയ് സെബാസ്റ്റിയന് എഴുതുന്നു
ജോയ് സെബാസ്റ്റിയന്
Deep Seek - ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സ് ഇന്നൊവേഷന്! പുറത്തിറങ്ങി ഒരാഴ്ച കൊണ്ട് അമേരിക്കന് ടെക്ക് ഭീമന്മാരുടെയൊക്കെ ഓഹരി വിലയ്ക്ക് ഇളക്കം തട്ടിച്ച കുഞ്ഞന് ചൈനീസ് കമ്പനിയും അവരുടെ കഥകളും വാര്ത്തകളില് നിറയുകയാണ്.
കഴിഞ്ഞയാഴ്ച അവര് റിലീസ് ചെയ്ത Deep Seek R1 എന്ന ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സ് ടൂള് ആണ് താരം. ഈ മേഖലയിലെ വമ്പന്മാരായ ചാറ്റ് ജിപിടി, ഗൂഗിള് ജെമിനൈ, മെറ്റാ, മറ്റനേകം പ്രൊഡക്ടുകള് എന്നിവയ്ക്കൊക്കെ Deep Seek R1 വെല്ലുവിളി ഉയര്ത്തികഴിഞ്ഞു. എല്ലാ ടെക് ഓഹരികളിലും ചാഞ്ചാട്ടം ഉണ്ടായെങ്കിലും ഏറ്റവും വലിയ ഇടിവുണ്ടായത് NVIDIA എന്ന ഹാര്ഡ് വെയര് ചിപ്പ് നിര്മ്മാണ കമ്പനിക്ക് ആയിരുന്നു. കഴിഞ്ഞ അഞ്ച് ദിവസങ്ങള്ക്കിടെ അവരുടെ ഓഹരി 15% ഇടിഞ്ഞു.
അമേരിക്കയ്ക്ക് പുറത്ത് നിന്ന് ടെക് ലോകത്ത് ആദ്യമായി ഇത്ര വലിയ ചലനം ഉണ്ടാക്കിയ Deep Seek എന്താണ് ചെയ്തത് എന്ന് അന്വേഷിക്കുന്നതിന് മുന്പ് കുറച്ച് സംഗതികള് മനസ്സിലാക്കേണ്ടതുണ്ട്. നിലവിലുള്ള മുന്നിര ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സ് മോഡലുകളെ ട്രെയിന് ചെയ്യാന് വമ്പന് കംപ്യൂട്ടിംഗ് ശേഷിയും അതൊക്കെ പ്രവര്ത്തിപ്പിക്കാന് വന്തോതില് ഊര്ജ്ജവും ഉപയോഗിക്കുന്നുണ്ട്. ഉദാഹരണത്തിന് ഓപ്പണ് എഐ യുടെ ജിപിടി -4 മോഡലിനെ ട്രെയിന് ചെയ്യാന് എസ്റ്റിമേറ്റ് ചെയ്ത തുക ഏകദേശം 100 മില്യണ് ഡോളര് (850 കോടി രൂപ) ആയിരുന്നു. ഇതെല്ലാം ചെലവാക്കിയത് കംപ്യൂട്ടിംഗ് ശേഷിക്ക് ആവശ്യമായ CPU, GPU എന്നിവയ്ക്കും ഡാറ്റാ സെന്ററിലേക്ക് വേണ്ട ഊര്ജ്ജാവശ്യങ്ങള്ക്കും വേണ്ടി മാത്രമായിരുന്നു. പ്രോഡക്ട് റിസര്ച്ച്, എഞ്ചിനീയറിംഗ് ചെലവുകള് ഇതിന് പുറമെയാണ്.
ആര്ട്ടിഫിഷ്യല് ഇന്റലിജന്സിന് ആവശ്യമുള്ള കംപ്യൂട്ടിംഗ് ശേഷിക്ക് വേണ്ടി എല്ലാവരും ഇപ്പോള് ആശ്രയിക്കുന്നത് NVIDIA യെ ആണ്. അവരുടെ പുതുതലമുറ ജി പി യു കള് ആണ് ഒട്ടു മിക്ക എ ഐ മോഡലുകളെയും പ്രവര്ത്തിപ്പിക്കുന്നത്. ഏകദേശം 35 ലക്ഷത്തോളം രൂപ ഒരെണ്ണത്തിന് വിലയുള്ള പതിനായിരക്കണക്കിന് NVIDIA H100 GPU കള് ആണ് മുന്നിരക്കാരൊക്കെ എ ഐ ട്രെയിനിങ്ങിനും മോഡലുകളെ പ്രവര്ത്തിപ്പിക്കാനുമായി ഒരേ സമയം ഉപയോഗിക്കുന്നത്.
ഈ മേഖലയിലെ കുത്തക ആയി മാറിയതോടെയാണ് വിപണിമൂല്യത്തില് ലോകത്തെ മുന്നിരയിലേക്ക് NVIDIA അടുത്ത കാലത്ത് എത്തിയത്. ഇത്തരം ഭീമമായ തുക ആവശ്യമുള്ളത് കൊണ്ട് മള്ട്ടി മില്ല്യന് ഡോളര് വിപണി മൂല്യമുള്ള കമ്പനികള്ക്ക് പോലും ഒരു പക്ഷേ അപ്രാപ്യമായ രീതിയില് ആയിരുന്നു എ ഐ ഡെവലപ്പ്മെന്റിന്റെ പോക്ക്. അവിടെയാണ് ഈ മേഖലയില് ഇത് വരെ കേട്ടിട്ടില്ലാത്ത Deep Seek, അഞ്ചര മില്ല്യന് ഡോളര് (അന്പത് കോടി രൂപ) ചെലവില് വമ്പന്മാരോട് കിടപിടിക്കുന്നതോ അതിനേക്കാള് മികച്ചതോ ആയ എ ഐ മോഡലുമായി കടന്നുവന്ന് അത്ഭുതം സൃഷ്ടിച്ചത്. പല മേഖലയിലും ജിപിടി -4 നേക്കാളും മികച്ച റിസള്ട്ട് Deep Seek തരുന്നുണ്ട് എന്ന് എ ഐ മോഡലുകളെ ബെഞ്ച്മാര്ക്ക് ചെയ്യുന്ന പല പരീക്ഷണങ്ങള് വഴി ഇതിനകം തന്നെ തെളിഞ്ഞു കഴിഞ്ഞു.
Deep Seek അവരുടെ പ്രോഡക്ട് അവതരിപ്പിക്കുക മാത്രമല്ല ചെയ്തത്. അതിന്റെ സോഴ്സ് കോഡും, എങ്ങിനെ ഇത് സാധിച്ചു എന്ന വിശദമായ ടെക്നിക്കല് റിപ്പോര്ട്ടും പബ്ലിഷ് ചെയ്തു. ഓപ്പണ് സോഴ്സ് ആയിട്ട് കോഡ് ലഭ്യമാക്കിയിട്ടുള്ളത് കൊണ്ട് അതുപയോഗിച്ച് മറ്റുള്ളവര്ക്ക് പുതിയ പ്രൊഡക്ടുകള് നിര്മ്മിക്കാനും കോഡ് മെച്ചപ്പെടുത്തി ഇതിനേക്കാള് മികച്ച എ ഐ മോഡലുകള് നിര്മ്മിക്കാനും കഴിയും. ഓപ്പണ് സോഴ്സില് വന്കിട മോഡലുകള് പലതും ഇപ്പോള് തന്നെ ലഭ്യമാണെങ്കിലും പ്രവര്ത്തിപ്പിക്കാന് വന്കിട മൂലധന നിക്ഷേപം വേണ്ടത് കൊണ്ട് മാത്രം മാറി നിന്ന പലര്ക്കും എ ഐയുടെ കോര് ഡെവലപ്പ്മെന്റിലേക്ക് തിരിച്ച് പ്രവേശിക്കാന് ഇത് വഴി തുറന്നു.
'മികച്ച എ ഐ ക്ക് കൂടുതല് എണ്ണം കരുത്തുറ്റ GPU കള്' എന്നതായിരുന്നു ഈ മേഖലയിലെ പൊതുവായ വിജയമന്ത്രം. ലളിതമായി പറഞ്ഞാല് Deep Seek അത് മാറ്റി മറിച്ചു. പുറത്ത് ലഭ്യമായ കണക്കുകള് ശരിയാണെങ്കില് ഒരു ലക്ഷത്തോളം ഏറ്റവും ആധുനിക GPU കള് ഉപയോഗിച്ച് ഓപ്പണ് എ ഐ ജിപിടി -4 നെ ട്രെയിന് ചെയ്തതെങ്കില് അത്ര നൂതനമൊന്നുമല്ലാത്ത ആയിരത്തോളം GPU കള് ഉപയോഗിച്ചാണ് Deep Seek അതേ കാര്യം സാധ്യമാക്കിയത്. നൂറില് ഒന്ന് കംപ്യൂട്ടിംഗ് ശേഷി ഉപയോഗിച്ച്!
ഏറ്റവും നൂതനമായ കംപ്യൂട്ടിംഗ് ചിപ്പുകളും അറിവും ചൈനക്ക് ലഭിക്കുന്നതില് അമേരിക്കയുടെ നിരോധനം നിലനില്ക്കുന്ന സമയത്ത് ഇതെങ്ങിനെ സാധിച്ചു എന്ന് എല്ലാവരും മൂക്കത്ത് വിരല് വെയ്ക്കുന്നുണ്ട്. പലവിധ സിദ്ധാന്തങ്ങളും അഭിപ്രായങ്ങളും ഇതേ കുറിച്ച് വരുന്നുണ്ടെങ്കിലും വിശ്വസനീയമായി തോന്നിയത് 'ആവശ്യം സൃഷ്ടിയുടെ മാതാവാകും' എന്നാരോ ഇതേ കുറിച്ച് കമന്റ് ചെയ്തതാണ്. അതേ, ചൈനയുടെ മേലെയുള്ള ഉപരോധങ്ങള് തന്നെയാണ് ഇപ്പോള് ലോകത്തെ മുഴുവന് ജനതയ്ക്കും ഭാവിയില് പ്രയോജനം ചെയ്തേക്കാവുന്ന ഒന്നിലേക്ക് ഇത്ര വേഗം എത്തിച്ചത്. അല്ലെങ്കില് ഒരു പക്ഷേ ഭീമന് കമ്പനികളുടെ കുത്തക ആയി മാറിയേക്കാമായിരുന്ന ഒന്നിനെ മാറ്റിമറിച്ചത്.
എങ്ങിനെ ഇത് സാധിച്ചു? ഹാര്ഡ് വെയര് റിസോഴ്സുകളുടെ ഉപയോഗം പരമാവധി കുറയ്ക്കുന്ന രീതിയില് അവര് നടത്തിയ സോഫ്റ്റ് വെയര് തലത്തിലുള്ള ഒപ്റ്റിമൈസേഷന് ആണ് ഇതില് ഏറ്റവും പ്രധാനം. ഉദാഹരണത്തിന് എല്ലാ മോഡലുകളിലും ദശാംശസംഖ്യകളുടെ കൃത്യതയ്ക്ക് വേണ്ടി 32 ബിറ്റുകള് ഉപയോഗിക്കുമ്പോള് Deep Seek അത് 8 ബിറ്റുകള് ആയി കുറച്ചു. അത് വഴി ഒറ്റയടിക്ക് 75% മെമ്മറി ഉപയോഗം കുറക്കാന് അവര്ക്ക് കഴിഞ്ഞു.
ജിപിടി -4 ഉള്പ്പടെയുള്ള മുന്നിര മോഡലുകള് എല്ലാം മാസീവ് മോഡലുകള് ആണ്. ജിപിടി -4 ല് ഏകദേശം 1.8 ട്രില്യന് പരാമീറ്ററുകള് ആക്ടീവ് ആയി നിന്നിട്ടാണ് നമ്മുടെ ചോദ്യങ്ങള്ക്ക് ഉത്തരം അത് തരുന്നത്. ഇത്തരം ലാര്ജ്ജ് ലാംഗ്വേജ് മോഡലുകള് പ്രവര്ത്തിക്കാന് ആവശ്യമായ പരാമീറ്ററുകളുടെ എണ്ണവും Deep Seek ഓപ്റ്റിമൈസ് ചെയ്തു ആകെ 671 ബില്ല്യന് ആക്കി ചുരുക്കി. ജി പി ടി 4 നു ആവശ്യമുള്ളവയുടെ മുന്നില് ഒന്ന് മാത്രം. ഇതില് തന്നെ ഒരേ സമയം ആക്ടീവ് ആകുന്നത് 37 ബില്ല്യന് എണ്ണവും.
Deep Seek സത്യത്തില് ഒട്ടനവധി എക്സ്പേര്ട്ട് സിസ്റ്റങ്ങളുടെ ഒരു കളക്ഷന് ആണെന്ന് പറയാം. അതായത് അതിനോടുള്ള ചോദ്യത്തിന്റെ കോണ്ടെക്സ്റ്റ് മനസ്സിലാക്കി ആവശ്യമുള്ള എക്സ്പേര്ട്ട് സിസ്റ്റം മാത്രമാണ് ആക്ടീവ് ആകുക. ഉദാഹരണത്തിന് മെഡിക്കല് ചോദ്യമാണെങ്കില് അതുമായി ബന്ധപ്പെട്ട എക്സ്പേര്ട്ട് സിസ്റ്റവും ലീഗല് ചോദ്യം ആണെങ്കില് അതുമായി ബന്ധപ്പെട്ട സിസ്റ്റവും ആയിരിക്കും ആക്ടീവ് ആകുക. ഇങ്ങനെ പലവിധ മാറ്റങ്ങള് വരുത്തിയാണ് GPU ഉപയോഗം ചിന്തിക്കാനാവാത്ത വിധം കുറച്ചത്.
DeepSeek ഒരു സാധാരണ ഗെയിമിംഗ് കമ്പ്യൂട്ടറില് പോലും നിങ്ങള്ക്ക് ലോഡ് ചെയ്യിച്ചു ട്രെയിനിങ് നടത്താനും പ്രവര്ത്തിപ്പിക്കാനും കഴിയും എന്നതാണ് ഇതിലെ ഏറ്റവും പ്രധാന സംഗതി. NVIDIA യുടേതായി പുറത്തിറങ്ങിയതും ഭാവിയിലേക്ക് അനൗണ്സ് ചെയ്തിട്ടൂള്ളതുമായ സൂപ്പര് ചിപ്പുകള് ഉപയോഗിക്കാതെ തന്നെ എ ഐ ഗവേഷണവും ഡെവലപ്പ്മെന്റും ഉപയോഗവും സാധ്യമാകും.
എ ഐ ഇപ്പോള് ക്ലൗഡില് നിന്നും SAAS ആയി ഉപയോഗിക്കുന്നവര്ക്ക് ഓപ്പണ് എ ഐ യില് ഒരു മില്ല്യന് ടോക്കണുകള്ക്ക് 4.4 ഡോളര് (400 രൂപ) ചെലവുണ്ടെങ്കില് Deep Seek ഒരു മില്ല്യന് ടോക്കണുകള് ഓഫര് ചെയ്യുന്നത് വെറും 10 സെന്റിന് (8 രൂപ) ആണെന്നതും കൂടി ചേര്ത്ത് വായിക്കുമ്പോഴാണ് ഈ കുഞ്ഞന് ചൈനീസ് കമ്പനി കൊണ്ട് വരുന്ന ഡിസ്റപ്ഷന്റെ ആഴവും പരപ്പും മനസ്സിലാകൂ.
Deep Seek ടെക്നിക്കല് റിപ്പോര്ട്ട് കമന്റില് വായിക്കാം.