Autor | Zpráva | ||
---|---|---|---|
_es Profil |
Marek Prokop:
„Obecně mi odhadování slov z víceslovných řetězců bez standardních oddělovačů přijde problematické“ Algoritmus na to je jednoduchý, nemusí ísť o „odhadovanie“, len je otázne, či a ktoré vyhľadávače to robia. Také rozdeľovanie by asi malo význam len pre text domény, nie pre bežný text na stránke. A či vôbec vyhľadávače slovám v doméne prikladajú nejakú významnú váhu, keďže ide o obsah webu a nie jeho adresu. |
||
Marek Prokop Profil |
#2 · Zasláno: 23. 9. 2013, 12:31:36
_es:
„Algoritmus na to je jednoduchý“ Zatím se vyhledavače ještě moc dobře nenaučily odhadovat ani význam řetězců reprezentujících jedno jediné slovo, takže o jednoduchosti algoritmu odhadujícího význam více neoddělených slov mám silné pochybnosti. |
||
_es Profil |
#3 · Zasláno: 23. 9. 2013, 12:48:07
Marek Prokop:
„o jednoduchosti algoritmu odhadujícího význam více neoddělených slov mám silné pochybnosti.“ Postupuje sa po jednotlivých znakoch a ak nasleduje znak, či postupnosť znakov, s ktorým by už slovo nepatrilo do množiny známych slov, slovo končí a začína nové. |
||
Chamurappi Profil |
#4 · Zasláno: 23. 9. 2013, 12:55:45
Reaguji na _es:
„slovo končí a začína nové“ Případně se může pokračovat dál pro případ, že by existovalo víc různých interpretací. Třeba expertsexchange.com obsahuje expert , experts , sex , exchange a change (neurčitý člen a /an nepočítám).
Skutečně v tom není zase tak velká věda, když má robot k dispozici obrovský vzorek slov. |
||
_es Profil |
#5 · Zasláno: 23. 9. 2013, 14:00:15
Chamurappi:
Dá sa vymyslieť veľa rôznych algoritmov, no najjednoduchší, ktorý by hľadal čo najdlhšie slová, od začiatku textu, by to rozdelil na: experts exchange . A je jednoznačný v závislosti od slovníka známych slov.
Okrem toho, pomlčka nie je „štandardným“ oddeľovačom slov. Môžu sa ňou oddeľovať aj časti jedného slova. |
||
Amunak Profil |
#6 · Zasláno: 23. 9. 2013, 14:32:25
Chamurappi:
„Třeba expertsexchange.com obsahuje expert, experts, sex, exchange a change (neurčitý člen a/an nepočítám).“ Ano, a přesně proto je dobré používat pomlčky v názvech. Když se na to doménové jméno takhle podívám, nevím, jestli mě na stránce čeká Experts Exchange, tedy asi nějaká stránka, kde si experti vyměňují [informace], nebo stránka, kde najdu expertní službu pro změnu pohlaví - Expert Sex Change. |
||
Petr ZZZ Profil |
Reaguji na Chamurappiho (a _es):
„Třeba expertsexchange.com obsahuje expert , experts , sex , exchange a change (neurčitý člen a /an nepočítám).“
Ještě to obsahuje například čínské výrazy/transkripce tse , cha , chan , han , hang (což je zároveň německy „svah“), ang , chang , německé (i anglické) per , microsoftí xp , německé er , jméno a akronym pert ... — Já nejsem programátor, ale když říkáte, že příslušný algoritmus není až tak složitý, nepřehlížíte tak trochu skutečnost, že na světě jsou kromě angličtiny ještě nějaké další jazyky?
Reaguji na _es: „najjednoduchší, ktorý by hľadal čo najdlhšie slová, od začiatku textu, by to rozdelil na: experts exchange.“ Potíž vidím jednak v tom, že zájmem vyhledávače není dělit slova na co nejdelší části, ale nabízet relevantní výsledky, což nemá s otázkou počtu (a délky) částí řetězce souvislost, a také v tom, že možností jak nějaký řetězec rozdělit, je příliš mnoho, a nejčastěji pouze u jedné z těch možností asi bude možné očekávat relevanci na hledanou frázi (což vůbec nemusí souviset s otázkou relevance obsahu nalezené stránky). |
||
Cody Profil |
#8 · Zasláno: 25. 9. 2013, 07:50:56
Tak dá se předpokládat, že doména stránky nebude jediné místo, kde bude obsah pro vyhledávače:-)
|
||
Petr ZZZ Profil |
#9 · Zasláno: 25. 9. 2013, 09:57:06
To tady snad nikdo nezpochybňuje.
|
||
Cody Profil |
#10 · Zasláno: 25. 9. 2013, 10:31:15
Petr ZZZ:
„To tady snad nikdo nezpochybňuje.“ Jde mi o to, že pak ta diskuse mi přijde zbytečná. Pokud na webu experts exchange, tak vyhledávač jasně pochopí, jak to bylo v URL. |
||
Chamurappi Profil |
#11 · Zasláno: 25. 9. 2013, 10:45:54
Reaguji na Petra ZZZ:
„nepřehlížíte tak trochu skutečnost, že na světě jsou kromě angličtiny ještě nějaké další jazyky?“ Na odhadnutí jazyka obsahu se už nyní používá nějaká chytrá heuristika. Je-li tedy známý jazyk obsahu, jde tuto informaci využít i při čtení slov z domény. „zájmem vyhledávače není dělit slova na co nejdelší části, ale nabízet relevantní výsledky“ Doménu člověk vidí, prohlížeče mu ji i zvýrazňují v adresním řádku z bezpečnostních důvodů. Co v ní vidí člověk, to by v ní měl chtít vidět vyhledávač (s jakou váhou, to je vedlejší). Lze předpokládat, že část lidí nad slovy v doméně přemýšlí víc, než by přemýšlela nad stejným shlukem písmenek v obyčejném textu. |
||
_es Profil |
#12 · Zasláno: 25. 9. 2013, 11:26:30
Chamurappi:
„Lze předpokládat, že část lidí nad slovy v doméně přemýšlí víc, než by přemýšlela nad stejným shlukem písmenek v obyčejném textu.“ Podobne som argumentoval aj v príbuznom vlákne. Vynechávať medzery v obyčajnom texte nemá zmysel - ten sa len číta. Názov domény sa často aj píše do adresového riadka a o tie oddeľovače je potom doména kratšia a rýchlejšie zapísateľná. Okrem toho, medzery v názve domény nie sú povolené. Tieto rozdiely by vyhľadávače mohli brať do úvahy. V obyčajnom texte by asi málokoho napadlo oddeľovať slová pomlčkami. |
||
Petr ZZZ Profil |
|||
_es Profil |
Petr ZZZ:
Z jedného vyhľadávača, aj keď dominantného, sa nedá generalizovať správanie všetkých ostatných vyhľadávačov. Škoda, že Bing nemá operátor inurl . Sú nejaké iné významnejšie vyhľadávače s podobným operátorom?
„nepozná ani shop jako část řetězce workshop“ A prečo by to mal nejaký vyhľadávač „poznať“, keď ide o odlišné slová? |
||
Petr ZZZ Profil |
Reaguji na _es:
„Sú nejaké iné významnejšie vyhľadávače s podobným operátorom?“ Seznam to umí taky: site:www.zabra.at inurl:denik Dodatek: Pardon, to nebyl důkaz, že umí ten operátor. Tohle už ale myslím důkaz je: site:www.zabra.at inurl:publikationen versus site:www.zabra.at publikationen „A prečo by to mal nejaký vyhľadávač „poznať“, keď ide o odlišné slová? “ Protože to je součást daného řetězce a někdo by zrovna to mohl hledat (a vědět, že to existuje, a on to zatrápený vyhledávač nenajde). Jiná věc je, jakou tomu má případně přikládat váhu – až zde by se mohl uplatnit sémantický význam, nevidím ale důvod, proč by měla sémantika úplně vyloučit nalezitelnost. |
||
Cody Profil |
#16 · Zasláno: 25. 9. 2013, 19:35:50
Petr ZZZ:
„Pokud jde ale o hledání, vypadá to, že nepozná ani shop jako část řetězce workshop.“ To je fakt. Zdá se, že jsem se mýlil. Omlouvám se. |
||
Časová prodleva: 11 let
|
0