Polski słownik dla androida - lista najpopularniejszych słów języka polskiego

Jako, że nie każdy ma na swoim androidzie polski słownik, podaje przepis jak w prosty sposób go uzyskać.

Wymagania

Instrukcja

  1. Ściągamy i rozpakowujemy słownik.
  2. Zmieniamy mu nazwę na przyjemniejszą np. lista.txt
  3. Wywalamy z początku tekstu zbędne linie - opis i licencję.
  4. Sortujemy listę słów po częstotliwości występowania
    sort -nr -k2 -t = lista.txt > lista2.txt
  5. Doprowadzamy listę do wymaganego przez UDM formatu - jedno słowo w linii
    cat lista2.txt |cut -d = -f 1 > lista3.txt
  6. Wycinamy z pliku tyle linii ile chcemy, pamiętając, że zbyt duża liczba powoduje zawieszenie UDM. Dobrą liczbą na początek jest np. 3000 (Patrz pkt. 7.)
    head -n 3000 lista3.txt > lista4.txt
  7. Zgrywamy na kartę i importujemy za pomocą UDM-a
    Przy wspomnianych trzech tysiącach słów import trwał długo. Kilkakrotnie trzeba było klikać w czekaj. Lepiej też nie dopuszczać do przejścia telefonu w stan uśpienia.

Uwagi

Gdy chcemy mieć bogatszy słownik tworzymy po prostu kilka kolejnych plików zamiast jednego wielkiego. Czynimy to modyfikując punkt 7 następująco (dla plików po 1000 słów):
sed -n '1,1000 p' lista3.txt > lista4-1.txt
sed -n '1001,2000 p' lista3.txt > lista4-2.txt
itd.

Wersja bez polskich znaków

Dla uzyskania wersji smsowej (bez krzaczków) wykonujemy komendę na pliku końcowym:
iconv -f utf-8 -t ascii//translit -o lista4sms.txt lista4.txt

Możemy też wgrać obie listy i potem w UDM-ie użyć opcji "clear" dla usunięcia duplikatów.

Oczywiście analogicznie możemy zrobić sobie słowniki dla angielskiego, niemieckiego, francuskiego, quenya czy też klingońskiego.

p.s. jak będziecie bardzo marudzić, to wrzucę paczkę z różnymi zestawami słów. (Chyba, że ktoś będzie tak miły i mnie wyręczy).

Portret użytkownika przemelek

Fajny poradnik

Fajny poradnik :-) Spróbowałem na moim G1 (jak ktoś zainteresowany to tutaj http://przemelek.pl/file/lista4.txt lista 3000 słów wykonana wg. tego poradnika). Jednak mimo dodania słownika i tak nie jest on zbyt przydatny :-( W trakcie testów podpowiadał mi w może co 12 słowie tak, że ciut przyśpieszał pisanie (np. wpisanie sie pozwalało wybrać się więc nie trzeba było pisać sie z klawiaturą programisty czy si<długie naciskanie E, aż wyskoczyłoby okienko do wybrania ę>), ale ogólnie nie było rewolucji. Klawiatura fizyczna jest nadal o wiele szybsza.

Portret użytkownika grizz

Ja dla testu wgrałem 10 tyś +

Ja dla testu wgrałem 10 tyś + te same 10tyś ale bez polskich znaczków... i też jakoś mało.

Potestuję jeszcze, apotem sprawdzę z większa ilością. Zastanawiam się też jak wielkość słownika wpływa na mulenie telefonu.

Portret użytkownika FxJ

http://forum.android.com.pl/1

http://forum.android.com.pl/193411-post13.html

Inna wersja

Portret użytkownika grizz

Tylko tamta wersja zawiera

Tylko tamta wersja zawiera słownik, który trzeba jakoś podzielić... A nie ma słów posegregowanych po częstotliwości.

Portret użytkownika FxJ

Niestety ale i tutaj takiego

Niestety ale i tutaj takiego niema to co przesłał "przemelek" też nie nadaje się do niczego, a to dlatego że są tam same słowa w których nie można zrobić błędu ortograficznego!

Pierwsze wyrazy: i w nie na z do to że a o jak ale co po tak jest za od go jego już tym jej mnie przez czy tylko był było tego mi mu sobie jeszcze może kiedy ze pan ich dla by gdy teraz ten ja ją była ma który nawet bardzo przed jednak tu pod coś tam wszystko przy więc powiedział nic nim żeby bo miał być on tej

Portret użytkownika grizz

Nie rozumiem. Po co robić

Nie rozumiem. Po co robić błędy ortograficzne? Jak chodzi Ci o listę bez polskich znaczków, to podałem sposób.

Portret użytkownika Gość

wrzuci ktos mirrora bo

wrzuci ktos mirrora bo open-dictionaries.com leży

Portret użytkownika mastav

Dobra, jest problem. Słownik

Dobra, jest problem.

Słownik jest w pdfie. Ciężko go przekonwertować do txt a tym bardziej skopiować słowa - jest ich za dużo.

Można prosić wersje txt słowników?

A najlepiej podzielonych, np.:

slownik1.txt - najpopularniejsze 3k słów slownik2.txt - mniej popularne 3k słów slownik3.txt - najmniej popularne 3k słów etc.

Chyba, że za dużo proszę? Ale nie tylko mi by to pomogło pewnie.

Dzięki z góry.

Portret użytkownika Lasoty

Gotowe 60k słów

W poniższych linkach jest paczuszka która zawiera:
lista_podst.txt - lista posortowana wraz z liczbą wystąpień
lista.txt - pełna lista słów z poprzedniej listy bez liczby wystąpień
lista[n].txt - gdzie n{1-10} pliki z 3k kolejnych wg popularności słów.

http://www.sas.yoyo.pl/pliki/listy.7z.001
http://www.sas.yoyo.pl/pliki/listy.7z.002

Dodaj nową odpowiedź

Zawartość pola nie będzie udostępniana publicznie. If you have a Gravatar account associated with the e-mail address you provide, it will be used to display your avatar.
Subskrybuje zawartość