dane - hum/dev

W obronie czytania [Naomi Baron, Reader Bot: What Happens When AI Reads and Why It Matters, Stanford University Press, 2026]

Żołnierze na plaży Omaha, którzy ukryci przed ostrzałem u podstaw klifów sięgają po książki, czekając na pomoc, to jeden z bardziej zaskakujących obrazów historii czytania. W książce Naomi S. Baron ta scena pojawia się jako punkt odniesienia, pokazujący siłę lektury. Ale czy wobec gwałtownego rozwoju czytania zapośredniczonego przez AI takie obrazy mają jeszcze siłę argumentu? Co tracimy, delegując lekturę na maszyny?... Czytaj dalej

Maszynowo generowane wizerunki to obrazy hipotetyczne

Zbyt często przypisujemy modelom generatywnym kreatywność, intencję i zdolność inspirowania się ludzką twórczością. Szczególnie łatwe jest to w przypadku maszynowo generowanych obrazów, z miesiąca na miesiąc coraz bardziej atrakcyjnych i coraz wyższej jakości. Takie wizerunki to jednak wyłącznie hipotezy zbudowane na ograniczonych i sformatowanych danych wizualnych, losowe infografiki na temat tych danych.... Czytaj dalej

Otwarte webinaria: wprowadzenie do danych dziedzictwa

Już 27 stycznia startuje seria webinariów poświęcona danym dziedzictwa. Pokażemy, że zbiory cyfrowe to nie tylko skany, ale też metadane, warstwy tekstowe i dane wyliczane z obrazów. 3 lutego porozmawiamy o podstawach projektowania, wytwarzania i wykorzystywania danych oraz o tym, dlaczego nie istnieje coś takiego jak "dane surowe”. Cykl zamknie 17 lutego spotkanie o zastosowaniach "sztucznej inteligencji" w pracy ze zdigitalizowanymi zbiorami, od analizy tekstów po narzędzia generatywne i tworzenie wizualizacji. Webinaria organizowane są przez Fundację Kórnicką, wspierającą bloga od pierwszych miesięcy jego istnienia.... Czytaj dalej

Nasze zbiory są za darmo, ale nie nasza infrastruktura: instytucje GLAM wobec masowego pobierania zbiorów w celu trenowania AI

Nawet jeśli biblioteki, archiwa i muzea cyfrowe udostępniają zdigitalizowane zbiory z domeny publicznej, mają prawo ograniczać dostęp do nich dla scraperów, gromadzących dane do trenowania modeli AI - to wnioski z raportu opublikowanego niedawno przez Fundację Europeana.... Czytaj dalej

Chcesz walczyć z AI przywłaszczającymi Twoją twórczość? Zwróć uwagę na zjawisko memoryzacji w modelach językowych

Memoryzacja to przechowywanie treści treningowych w wagach modeli językowych. To sytuacja, w której statystyka działająca w modelach odtwarza oryginalne utwory, wykorzystane wcześniej do trenowania. Na przykład Twoje książki i artykuły.... Czytaj dalej

The Common Pile - wolne licencje w trenowaniu LLM

Rozwój sztucznej inteligencji nie powinien podważać praw twórców i twórczyń oraz skutkować wywłaszczaniem ich z autorskich praw majątkowych. Oto udostępniony został nowy zestaw danych językowych The Common Pile v0.1, bazujący wyłącznie na treściach dostępnych w domenie publicznej i na wolnych licencjach.... Czytaj dalej

"Big Data" to ułuda? Przyrost wartościowych danych nie nadąża za możliwościami sprzętu

Zanim popularnym tematem technologicznych zainteresowań w łonie dyscyplin humanistycznych stała się "sztuczna inteligencja", było nim "big data". Termin ten nie jest nowy, pochodzi jeszcze z lat 90., ale od około 2010 roku zaczął pojawiać się w opracowaniach naukowych poświęconych kulturze i społeczeństwu. Dziś warto zastanowić się, czy rzeczywiście jest przydatny, tym bardziej, że nawet branża IT zwraca uwagę na jego ograniczenia.... Czytaj dalej

Noc Muzeów to dobre źródło danych o kulturze

W tym roku mija 20 lat "Nocy Muzeów".... Czytaj dalej

Chyba nie warto przejmować się recenzjami książek na platformach

Analiza ponad 600 tys. recenzji z platformy Goodreads pokazuje, że oceny książek publikowane w takich serwisach więcej mówią o preferencjach czytelników i czytelniczek niż o rzeczywistej treści... Czytaj dalej