Poniżej przedstawiam listę 300 najpopularniejszych słów w języku polskim, zebraną z wykorzystaniem tekstów zawierającychw sumie 269 milionów słów. Liczby po słowach są udziałem danego słowa w języku. W tej wersji zamieszczam wszystkie słowa, tak jak przedstawił to komputer wraz z błędami, takimi jak angielskie słowa i pojedyncze litery.
. 0,060663222
w 0,031438997
i 0,018003276
na 0,014989314
z 0,0139002
się 0,013733981
do 0,010106477
nie 0,010071599
to 0,006219967
że 0,005826183
jest 0,005238953
o 0,004970104
a 0,004876955
1 0,003788531
od 0,003586235
po 0,003328101
przez 0,003106692
2 0,003105817
0 0,003045727
procent 0,0027537
za 0,002747959
3 0,002696055
jak 0,002648366
roku 0,002314594
co 0,002248845
ale 0,002213622
5 0,00207705
tym 0,002014712
dla 0,002011001
jego 0,001935342
4 0,001876315
tak 0,001702058
6 0,001666694
r 0,001658192
oraz 0,00164761
są 0,001645549
był 0,001580711
tego 0,001538959
już 0,001492806
czy 0,001461836
ma 0,001444666
ze 0,001441979
tylko 0,001439217
też 0,001420538
pod 0,001366344
jako 0,001334027
może 0,001321163
jej 0,001319225
jednak 0,001318222
ich 0,00126622
7 0,001263092
10 0,00118221
go 0,001175501
8 0,001156087
który 0,00113173
0 0,00110934
zł 0,00109789
było 0,001078082
20 0,001076017
także 0,001042792
lub 0,001034821
które 0,001029027
przy 0,001012958
być 0,001007921
będzie 0,000991208
przed 0,000988091
9 0,000985094
ten 0,000943311
jeszcze 0,000930496
lat 0,000928294
tej 0,000921839
by 0,000861668
12 0,000855473
była 0,000845473
15 0,000837209
bardzo 0,000819586
gdy 0,000806468
50 0,000801367
został 0,00079486
mu 0,000790656
sobie 0,00074686
również 0,000745654
kiedy 0,000744423
we 0,000732016
nad 0,000731291
latach 0,000726806
nawet 0,000723394
można 0,000719735
11 0,000713921
30 0,000713864
2006 0,00071238
mnie 0,00070443
2007 0,000693092
niż 0,000687601
21 0,000678293
22 0,00067619
bez 0,00067524
jeśli 0,000672619
18 0,000669499
linki 0,000663093
25 0,000656434
polski 0,00065196
tys 0,000648628
14 0,000644013
mi 0,000641624
między 0,000638979
13 0,000636168
on 0,000630639
więc 0,000630463
16 0,000625935
osób 0,000624518
zewnętrzne 0,000621978
gdzie 0,000620279
polsce 0,000617074
19 0,000608871
the 0,000600027
miejscowość 0,000598557
cest 0,000591863
s 0,000586927
tu 0,00058608
która 0,000585422
u 0,000585095
mln 0,000584965
tych 0,000575597
innymi 0,000571246
17 0,000570943
pan 0,000566577
były 0,000564608
m 0,000560312
23 0,000558258
powiedział 0,000556573
miał 0,000553235
ją 0,000551441
teraz 0,00054176
tam 0,000537732
bo 0,000534897
te 0,000531309
nich 0,000528906
według 0,000516693
podczas 0,000516278
nim 0,000501327
których 0,00049819
urodzony 0,00049388
aby 0,00049355
rd1 0,000492136
miejsce 0,000491407
danych 0,000485146
ja 0,000480084
24 0,000468039
rok 0,000467244
ii 0,00045623
natomiast 0,000453852
align 0,000452846
pracy 0,000450848
1998 0,000450398
40 0,000446349
zobacz 0,000443243
center 0,000441843
je 0,000436622
innych 0,000433228
wszystko 0,000431726
cet 0,000428268
dwa 0,000428222
jeden 0,000427199
potem 0,00042697
coś 0,000426618
miejscu 0,00042017
nic 0,000417518
którzy 0,000417173
26 0,00041641
e 0,000414609
mają 0,000412952
sposób 0,000410602
100 0,000408864
ta 0,000407563
którym 0,000404692
bank 0,000404664
czasie 0,000404516
niego 0,000398877
więcej 0,000398652
kilka 0,000397653
raz 0,000397301
pierwszy 0,000396686
wiele 0,000396538
żeby 0,000396112
której 0,000394361
ok 0,000392964
obecnie 0,000390329
właśnie 0,000384318
n 0,000383129
k 0,000383069
stanie 0,000381215
27 0,000371657
de 0,000371408
60 0,000371024
ponad 0,00036815
wśród 0,000367907
wszystkich 0,000367552
lecz 0,000366947
będą 0,000366747
bardziej 0,00036669
usa 0,000366391
28 0,000364017
wieku 0,000363802
rynku 0,000363141
została 0,000362701
wszystkie 0,000361132
później 0,000359672
albo 0,000358153
akcji 0,00035804
przykład 0,00035709
gmina 0,000356524
80 0,000356207
ludzi 0,00035575
sam 0,000350586
of 0,000349872
wieś 0,000348001
b 0,000344588
kraju 0,000344441
nas 0,000343494
pani 0,000342295
którego 0,000341335
dwóch 0,000340554
wielu 0,000340241
miasta 0,000339182
2005 0,000338235
mogą 0,00033654
ani 0,000333884
iż 0,000331249
2004 0,000330472
czas 0,00032904
czasu 0,000328235
im 0,000327556
70 0,000326222
ci 0,00032515
t 0,000321565
względem 0,000321104
siebie 0,000320791
inne 0,000320672
90 0,000317618
części 0,000317572
29 0,000316503
dobrze 0,00031606
ona 0,000315764
sa 0,000315303
prawa 0,000315015
takie 0,000314684
część 0,000314674
usd 0,000313513
państwa 0,0003118
polska 0,000311617
świata 0,000311339
wtedy 0,000310446
niej 0,000309654
razem 0,000308873
należy 0,000307962
trzeba 0,000307941
gminie 0,00030207
maja 0,000301964
2000 0,000301718
31 0,000300807
trzy 0,000298717
około 0,000298331
grupy 0,000295291
warszawa 0,000295129
strony 0,000291724
aż 0,000291309
nigdy 0,000289758
nr 0,000288122
zawsze 0,000286849
czyli 0,000286015
art 0,000285744
1990 0,000285044
poza 0,000280461
miasto 0,000278529
czym 0,000275831
miała 0,000273471
p 0,000273288
swoje 0,000273042
choć 0,000272514
temu 0,00027206
mam 0,000271916
ciągu 0,000271694
prawo 0,000271153
domu 0,000269756
osoby 0,000269506
wszystkim 0,000269436
chyba 0,000268954
jeżeli 0,000268841
życia 0,000268747
jednym 0,000268384
2008 0,000266333
francji 0,000265971
dlatego 0,000264726
kilometrów 0,00026455
35 0,00026449
stycznia 0,000262647
mówi 0,000261859
dzięki 0,000261803
1975 0,000261729
google.com, pub-0177550132004975, DIRECT, f08c47fec0942fa0
1 cze 2009
29 maj 2009
Projekty studentów - Gra w statki
W ramach przedmiotu Języki Programowania poprosiłem studentów o zrobienie projektów. Kilka z nich, tych powiązanych z grami i z akustyką udostępnię na blogu.
Na początek gra w statki zrealizowana przez Bartosza Dittmara i Bartosza Pawłowicza. Program działa w konsoli, ale algorytm gry przez komputer jest bardzo skuteczny. Poniżej fragmenty opisu wykonanego przez autorów:
"Pisanie programu rozpoczęliśmy od napisania funkcji wyświetlania plansz gracza i komputera (na początku jeszcze pustych). Następnie zajęliśmy się stawianiem statków graczy przy zachowaniu zasad obowiązujących w grze. Kolejny krok to wykonywanie strzelania przez gracza i efekty strzału widoczne na planszy w zależności od miejsca które zostało trafione w tym także automatyczne obtoczenie zestrzelonego statku pudłami (ponieważ tam nie mógłby stać żaden statek). Późniejsze prace dotyczyły w większości stworzenia jak najbardziej efektywnego algorytmu postępowania dla gracza komputerowego, który opisany jest w dalszej części dokumentacji. W międzyczasie trwały także prace nad estetyką projektu (np. wprowadzenie kolorów oraz menu początkowego).
[...]
-int jakikierunek(int t, int s, int q) - sprawdzenie jak najprawdopodobniej ustawiony jest trafiony statek, zlicza ilość wolnych pól w każdym kierunku (wartość maksymalna zależy od rozmiaru największego pozostałego statku) i analizuje wynik zwracając kierunek w którym zostanie oddany strzał (kierunek: 0-prawo 1-lewo 2-góra 3-dół)
-int goradol, int lewoprawo – funkcje sprawdzają w którym kierunku najlepiej oddać kolejny strzał gdy wiemy już czy trafiony statek jest ustawiony pionowo lub poziomo
-int szukanie(int q) - sprawdzenie czy istnieją miejsca o większym prawdopodobieństwie wystąpienia największego niezatopionego statku (rozmiar określa q) na podstawie odpowiedniej analizy zmiennych wynikowych z funkcji spionowo i spoziomo; funkcja zwraca zmienną krzyzyk określającą jakich miejsc ma szukać komputer"
Ściągnij program
Na początek gra w statki zrealizowana przez Bartosza Dittmara i Bartosza Pawłowicza. Program działa w konsoli, ale algorytm gry przez komputer jest bardzo skuteczny. Poniżej fragmenty opisu wykonanego przez autorów:
"Pisanie programu rozpoczęliśmy od napisania funkcji wyświetlania plansz gracza i komputera (na początku jeszcze pustych). Następnie zajęliśmy się stawianiem statków graczy przy zachowaniu zasad obowiązujących w grze. Kolejny krok to wykonywanie strzelania przez gracza i efekty strzału widoczne na planszy w zależności od miejsca które zostało trafione w tym także automatyczne obtoczenie zestrzelonego statku pudłami (ponieważ tam nie mógłby stać żaden statek). Późniejsze prace dotyczyły w większości stworzenia jak najbardziej efektywnego algorytmu postępowania dla gracza komputerowego, który opisany jest w dalszej części dokumentacji. W międzyczasie trwały także prace nad estetyką projektu (np. wprowadzenie kolorów oraz menu początkowego).
[...]
-int jakikierunek(int t, int s, int q) - sprawdzenie jak najprawdopodobniej ustawiony jest trafiony statek, zlicza ilość wolnych pól w każdym kierunku (wartość maksymalna zależy od rozmiaru największego pozostałego statku) i analizuje wynik zwracając kierunek w którym zostanie oddany strzał (kierunek: 0-prawo 1-lewo 2-góra 3-dół)
-int goradol, int lewoprawo – funkcje sprawdzają w którym kierunku najlepiej oddać kolejny strzał gdy wiemy już czy trafiony statek jest ustawiony pionowo lub poziomo
-int szukanie(int q) - sprawdzenie czy istnieją miejsca o większym prawdopodobieństwie wystąpienia największego niezatopionego statku (rozmiar określa q) na podstawie odpowiedniej analizy zmiennych wynikowych z funkcji spionowo i spoziomo; funkcja zwraca zmienną krzyzyk określającą jakich miejsc ma szukać komputer"
Ściągnij program
20 maj 2009
IIHMSP 2009
Nasz artykuł został przyjęty na The Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP2009) w Kyoto. Praca opisuje początki naszych badań w zakresie wykorzystywania systemu 2 mikrofonów do odtwarzania sygnału mowy z sygnału akustycznego do którego został naumyślnie dodany sygnał zagłuszający, na przykład w postaci radia lub dźwięku pracującego silnika. Metoda wykorzystuje różnice w drodze, którą muszą przebyć sygnały do poszczególnych mikrofonów. Dzięki niej sygnały mogą zostać odseparowane.
5 maj 2009
Słowosieć
Byłem dzisiaj na seminarium zorganizowanym na Politechnice Wrocławskiej na której doktor Piasecki prezentował Słowosieć, czyli polskiego wordnet'a w wersji 1.0. Słowosieć jest strukturą opisującą relacje pomiędzy słowami utworzonymi w sposób półautomatyczny, poprzez analizę współwystąpień słów w zbiorach tekstów i poprzez wiedzę językoznawczą wprowadzoną przez ludzi. Słowosieć zawiera dużo informacji, które mogą być wykorzystane w wielu zastosowaniach związanych z komunikacją człowieka z maszyną, takich jak rozpoznawanie mowy, systemy dialogowe i analiza zawartości stron internetowych.
24 kwi 2009
WorldComp 2009
Nasz kolejny artykuł został przyjęty na kongres WorldComp 2009, składający się z 22 konferencji na które przyjedzie około 2000 naukowców, inżynierów i przedsiębiorców. Referat znajdzie się w części poświęconej sztucznej inteligencji, gdzie przyjęto jedynie 27% z nadesłanych prac. W ramach kongresu wystąpią między innymi profesorowie Ian Foster, znany z obliczeń gridowych, Brian D. Athey (biomedyczna informatyka) i dr. K. Eric Drexler (nanotechnologia).
10 kwi 2009
Statystyki fonemów
Dwa nasze artykuły zostały przyjęte na konferencje:
WORLDCOMP'09 w Las Vegas i IIS 2009 w Krakowie. Pierwszy artykuł opisuje statystyki fonemów zebrane z wykorzystaniem korpusu Rzeczypospolitej a drugi z wykorzystaniem wikipedi.
WORLDCOMP'09 w Las Vegas i IIS 2009 w Krakowie. Pierwszy artykuł opisuje statystyki fonemów zebrane z wykorzystaniem korpusu Rzeczypospolitej a drugi z wykorzystaniem wikipedi.
25 mar 2009
Oferta pracy w Szwecji dla doktora lingwistyki komputerowej
Wydział Lingwistyki i Filologii Uniwersytetu w Uppsali poszukuje kandydatów z doktoratem w dziedzinie lingwistyki komputerowej do pracy. Obowiązki obejmują prowadzenie badań w zakresie technologii językowych oraz dydaktykę na poziomach od pierwszych lat studiów po doktorantów.
Subskrybuj:
Posty (Atom)