Citat:
Ursprungligen postat av
marcuse
Upplever samma som du.
Stora fel p tillsynes vldigt basala frgor.
Jag har betalversionen.
Har ven svrt att processa info frn tex sm pdf filer som man laddar upp
ChatGPT r ett halvfrdigt verktyg - en prototyp - ett "proof of concept" om att mer r mjligt.
Jag laddade upp en PDF eller JPEG och bad den extrahera texten ur den.
S ChatGPT skrev ett python-skript som den sjlv sedan kra inom sin egna server.
Den misslyckades ngonstans och gav mig python-koden och svaret "Sorry, I failed to extract text out of JPEG, let my try another method..."
sen skrev den ny python-kod lite annorlunda n den tidigare och sa
"Seems like I failed again - do you want me to try another method (en annan typ av kod) fr att gra uppgiften?"
Jag bara: "ja."
Sen lyckades den.
S den krde fel ett par gnger, insg att den misslyckats, frskte p andra stt, och ett tredje stt lyckades gra exakt vad jag ville. Man skulle ju kunna tro att en AI-maskin som hanterar maskiner (kod) skulle ha koll p koden frn frsta brjan, men ChatGPT r som sagt ett halvfrdigt verktyg. Man kan sga till den "You failed, try again and succeed this time." s r det mycket mjligt att den lyckas med allt.
Sedan s fredrar jag
https://aistudio.google.com/prompts/new_chat Google Gemini Flash 2 Experimental Thinking mer n ChatGPT, men kan inte sga exakt varfr. Kanske fr att man ibland har nytta av att den kan lyssna p ens rst i mikrofonen samt se ens skrm och bertta hur man gr dittan och dattan i oknda program - frn meta-niv makroorganisering till detaljstyrning p individuella-klick -niv dvs mikroniv. Sen kan man i mikrofonen frga den "what exactly are we doing right now?" s svarar den med sitt resonemang/analys. Eller s kan man sga t.ex. "I want to ... in order to get the result that ..., how do I do that?" s bekrftar den frgar och svarar p den, s man vet vad/hur den tnker s att man har kontroll ver vart den styr en.
Ibland krashar AIn men d fr man bara klicka p att teruppta sessionen, s fortstter man frn dr man var. Det r m.a.o. ocks en halvfrdig produkt (men den ser och hr och resonerar, och kan svara i ljud/dess rst - s man kan ha den i bakgrunden som assistent).
Ett use-case r att man har en PDF med sg 60 sidor, och man letar efter frasen "uncle" i den. D gr man s Gemini ser skrmen, sen sger man till den "Im gonna scroll through this PDF, tell me which pages the word uncle is on." s scrollar man skitsnabbt genom alla 60 sidor. D blir svaret typ "the word uncle was on pages 9, 11 and 28" och kollar man s stmmer det.
Man kan sker ha Gemini i bakgrunden (seendes ens skrm och hrandes ens rst, och svarandes i audio genom hgtalarna) nr man skriver inlgg p Flashback, och be den redogra vad som r bra/dligt och vad som r sant och vad som... analysera/kommentera/hjlpa till i ens utformning av inlgg. Kom p det nyss s ska testa det nu...
Med allt det sagt s r en mjlig pong/slutsats att: Gemini r bara 1 steg (av utvecklarna Google) frn att gra sjlva klickandet och skrivandet t en, dvs styra ens mus och tangenter. Det i sin tur r, i.om. att den redan ser och hr och pratar, ett steg frn humanoida robotar.