Главная Юзердоски Каталог Трекер NSFW Настройки

Программы

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 98 13 37
собственная поисковая система Аноним (Microsoft Windows 10: Firefox based) 29/05/23 Пнд 16:52:56 3313558 1
Gigablast, the [...].mp4 1221Кб, 320x240, 00:00:30
320x240
(по совместительству тред обхода жидомасонской поисковой цензуры с удалением неудобных результатов поиска)

существуют ли готовые опенсорцные поисковые движки, "пауки" или "кравлеры", которые можно запустить на своём компьютере?
в гугле находится только всякая фигня типа Searx и Mojeek, которая или не является реальным поисковым движком, или которую невозможно запустить на собственном железе.
ну и миллион не поисковых движков, а просто кравлеров, которые ещё нужно допиливать, чтобы они стали поисковой системой.

единственный реальный поисковый движок, что я нагуглил - Gigablast, заброшенный проект, который не собирается даже на протухшем Debian 10 и Ubuntu 18: https://github.com/gigablast/open-source-search-engine

https://web.archive.org/web/20210126124653/http://www.gigablast.com/about.html
Аноним (Microsoft Windows 10: Firefox based) 30/05/23 Втр 12:06:54 3313822 2
бамп
Аноним (Microsoft Windows 10: Firefox based) 30/05/23 Втр 22:25:48 3314085 3
>>3313558 (OP)
>кравлер
ты реально собрался обойти все страницы всех сайтов в интернете своей машиной? ты ебанутый?
Аноним (Microsoft Windows 10: Chromium based) 31/05/23 Срд 04:28:22 3314123 4
>>3314085
а если десяток серверов двухпроцессорных?
допустим, памяти суммарно 5Тб, дисков 1Пб.
Аноним (Linux: Chromium based) 01/06/23 Чтв 14:04:53 3314811 5
>>3314085
у меня есть пара свободных серверов с безлимитным трафиком и несколькими терабайтами места.

>>3314123
а это уже слишком дохуя будет стоить.
имхо весь текст в интернете весит не больше сотни гигабайт, а вот картинки - да, десятки и сотни терабайт.
Аноним (Microsoft Windows 10: Chromium based) 01/06/23 Чтв 20:29:46 3314995 6
>>3313558 (OP)
А вот и свободный от оков цивилизации. Свободный от зондов, капчующий через интернет, провайдер которого видит весь трафик, хранит сообщения и звонки, который по первому требованию отдать это всё товарищу майору. Сидящий на мейлрушной борде, живущий в городе, где на каждом шагу камеры. И еще пытается выпукать свое говнище. Выйди на улицу, потрогай траву, а не дома сиди, шизик.
Аноним (Linux: Chromium based) 01/06/23 Чтв 20:33:55 3315004 7
>>3314995
не путай тёплое с мягким. мне похуй, что провайдер и майор всё видят на самом деле почти ничего не видят, но это совсем другая история, но мне не похуй, что гугл сортирует результаты по собственному желанию, в первую очередь подсовывая проплаченное говно, и что он удаляет результаты поиска "по запросу правообладателей", "по закону о забвении", "по желанию левой пятки".
Аноним (Linux: Chromium based) 02/06/23 Птн 11:29:08 3315159 8
>>3314811
> имхо весь текст в интернете весит не больше сотни гигабайт, а вот картинки - да, десятки и сотни терабайт.

"A single copy of the Internet Archive library collection occupies 99+ Petabytes of server space" но это не только вебсайты, но и музыка, видео, софт, исо образы виндовса, "computer magazines and journals, books, shareware discs, FTP sites, video games, etc"
сколько весит чисто web.archive.org я не нагуглил, у интернет архива есть официальное API, можете поковыряться:
https://github.com/jjjake/internetarchive
https://archive.org/developers/items.html
Аноним (Linux: Chromium based) 03/06/23 Суб 16:18:30 3315478 9
не тонем
Аноним (Microsoft Windows 10: Chromium based) 03/06/23 Суб 18:32:06 3315503 10
>>3315478
сам то, что-нибудь полезное нарыл?
Аноним (Linux: Chromium based) 03/06/23 Суб 20:12:16 3315543 11
>>3315503
только гигабласт. подумываю об установке 9го дебиана
Аноним (Google Android: Mobile Safari) 04/06/23 Вск 05:23:34 3315617 12
Аноним (Google Android: Mobile Safari) 04/06/23 Вск 10:55:05 3315646 13
Аноним (Linux: Chromium based) 06/06/23 Втр 09:50:43 3316343 14
bump
Аноним (Linux: Chromium based) 07/06/23 Срд 12:08:33 3316739 15
16664487535270.png 69Кб, 849x835
849x835
16664487535271.png 181Кб, 972x1486
972x1486
16664487535272.png 144Кб, 1718x844
1718x844
16664487535283.png 258Кб, 899x807
899x807
>>3315004
репост из /zog/:


Простой эксперимент для всех сомневающихся. Вводите любое слово в поисковики и мотайте, просматривая выдачу. Там будет один-два десятка результатов со ссылками на вики, клоны вики, всякую правительственную парашу, ВК (если вы там зареганы), на объявления. ЗАТЕМ! Эти выданные сайты начнут тупо повторяться, меняя порядок, а иногда не меняя, т.е. мотаешь 100ую и 300ую страницу, а там просто они одинаковые по выдаче.
НО! Чаще всего вам просто выдадут пару десятков страниц с выдачей И ВСЁ!
Ещё недавно (месяц назад мб) гугл выдавал под 50-70 страниц, сейчас видимо заболел. Скрины прилагаю.
1. Я конечно понимаю, что Москва - это какая-то хуйня, но может она достойная больше двадцати с хуем страниц выдаче В ГУГЛЕ - царе поисковиков???
2. Дакдакго самый честный поисковик. Ты запросил слово автомобиль? Это чо? На нахуй тебе 6 страниц выдачи и иди нахуй, не мешай.
3. Я конечно понимаю, что слово "слово" и слово "Бюджетный федерализм" имеют разную частоту употребления в инете, но блядь, яндекс, какого хуя у этих двух запросов по 25 страниц выдачи?
4. Пока мотал яндекс до последней страницы, он спросил меня "А не бот ли ты, петушок?". Я -нет, а ты блядь?

Про свои "А вот в икс поисковике всё хорошо" - сходите нахуй, а перед этим почитайте какие запросы он выдаёт - всё после пары десятков страниц начинает повторяться.

Боты из треда не сочкуют.
А какого хуя так людей стало мало на дваче с 17 октября?
>Так это хохлов отрубили от инета.
Бляя складно.

>Да нет тут никакого заговора, просто копирайтеры пук, рекламщики среньк, капитализм пук.
Аноним (Linux: Chromium based) 07/06/23 Срд 12:09:27 3316740 16
16673028699740.png 105Кб, 866x675
866x675
16673028699751.png 104Кб, 866x881
866x881
16673028699752.png 102Кб, 866x881
866x881
>>3315004
репост из /zog/:


mda kek, пол миллиона результатов поиска даже на три страницы не уместились.
Аноним (Linux: Chromium based) 07/06/23 Срд 12:10:31 3316742 17
16721812355770.png 17Кб, 763x165
763x165
>>3315004
репост из /zog/:




Мне кажется хоть бы в Интернете осталось 10% того, чтобы было в 2010.
Я гуглом пользовался с середины нулевых. Я обожал сёрфить в интернете, это было как кладоискательство. Сотни страниц картинок от одного запроса. Я мог найти кино, просмотренное в глубоком детстве, по его смутному описанию. А сейчас что?

Любой специфический запрос приходится закрывать в ковычки, ибо алгоритмы усредняют всё под тупого юзера, чтобы подсунуть популярные "похожие" запросы. Наверное всех бесит это, когда Не найдено: N| Запрос должен включать: N при этом зачёркивая половину запроса в т.ч. суть.Последние месяцев 6 Гугл совсем скис и даже ковычки стали хуже помогать, я стал замечать, что всё чаще обращаюсь к Яндексу за специфическим запросом.

Написав длинный запрос и закрыв всё в ковычки как надо, с большей вероятностью тебе попадутся одни дорвеи.

99% форумов вымерло. Раньше в гугле вообще можно было помимо "карт" и "видео", выбирать "обсуждения", где подбирались различные форумы на всяких популярных движках типа XenForo.

Всё ушли в соцсети? Хорошо. Только вот соцсети окуклили. Те же группы вк плохо стали индексироваться, даже с site:vk.com не найдёт.

Даже не скрывают, что подбирают только "ПОЛЕЗНЫЕ" запросы
Аноним (Linux: Chromium based) 07/06/23 Срд 12:12:56 3316744 18
>>3315004

ну и сам тред в /zog/: https://2ch.hk/zog/arch/2023-04-28/res/620696.html

> Тебе гугл откровеено говорит, что доступ юзера к результатам поиска - атавизм, и много лет целенаправленно уничтожает поиск. Когда поиска совсем не станет - лишь вопрос времени.
Аноним (Linux: Chromium based) 07/06/23 Срд 12:19:15 3316745 19
>>3315004
репост из /zog/:



Теперь понятно зачем "Яндекс" и "Google" уничтожили поиск. Они так не только скрыли зачистку интернета, но и подготовили почву для поисковой надстройки в виде ботов.

Схема простая: доступ к полной базе данных будут иметь боты, а людям - демо-версия, имитирующая поиск.

В результате люди ищут и не могут найти, бот находит легко. Это уже реализовано.

Т.е. людей подталкивают, вынуждают использовать надстройку вместо самостоятельного поиска информации и её анализа.

Анон выше про "истину в последней инстанции" прав.

Помимо интернета, вывели и расплодили "потребителей", которые воспринимают ссылки на "авторитетов" (или просто ссылки) как нечто священное.

Старожили знают что такое нормальный поиск в интернете и нормальные сайты с нормальными статьями, а не сгенерированная дрянь. "Ньюфагам" банально не с чем сравнивать, они стали использовать интернет когда он уже стал барахлом и нейросетевые системы могут восприниматься ими как "шаг в будущее", потому что это стандартная схема "отобрать и вернуть", только возвращают с контролируемой посреднической системой.

Получается сразу пачка степеней цензуры информации:

- модерация;
- поисковые системы;
- нейросетевые системы.

На каждом уровне цензура. Плюс "теневые баны" и "информационная изоляция".

Дословные цитаты из "Библии" поисковики уже не всегда находят.
Аноним (Microsoft Windows 10: Chromium based) 07/06/23 Срд 12:28:33 3316752 20
>>3315004
>провайдер и майор
они существуют только в твоем воображении, дебил
Аноним (Linux: Chromium based) 07/06/23 Срд 12:45:26 3316756 21
>>3316752
дебил - это твой отец, точнее сразу оба.
Аноним (Microsoft Windows 10: Chromium based) 07/06/23 Срд 13:04:57 3316768 22
>>3316756
Не могу с тобой не согласиться, он действительно дебил. Я вот все время удивляюсь, хуле я такой умный?
Аноним (Microsoft Windows 10: Chromium based) 07/06/23 Срд 17:57:59 3316860 23
brofist.gif 4746Кб, 367x440
367x440
>>3316739
>>3316742
>>3316745
всё так анон.
Но что делать?
Допустим запускаем какой то локальный индексатор, вопрос
1) сколько всего доменов в интернете?
2) как получить полный список?
3) как долго краулер будет обходить все сайты?
4) сколько полезных данных удастся индексировать на обычном HDD размера 4-10Тб ?
5) с какой скоростью потом будет работать поиск?
Аноним (Linux: Chromium based) 07/06/23 Срд 18:05:11 3316862 24
>>3316860
> 1, 2
под миллиард. иногда кибержулики сливают зоны целиком, у меня где-то валялись дампы.
можно посмотреть на веб архиве, раньше вот тут была зона ру: https://partner.r01.ru/ru_domains.gz

и вот тут ком нет орг http://www.domainresearchtool.com/lists/com.zone.gz
http://www.domainresearchtool.com/lists/net.zone.gz
http://www.domainresearchtool.com/lists/org.zone.gz

> 3, 5
долго) но у меня есть безлимитный гигабит.

> 4

мало, см. выше: >>3315159
Аноним (Linux: Chromium based) 07/06/23 Срд 18:18:32 3316873 25
>>3316862
> можно посмотреть на веб архиве

пиздец, только сейчас заметил, что моя заметка с этими ссылками создана в 2011 году.

проверил веб архив:
.ru зона последний раз выкладывалась в сентябре 2013го
.com - первый и единственный раз в 2014ом (странно, что кравлер веб архива не знал про эту ссылку в 2011ом)
.net и .org - вообще не архивированы
Аноним (Linux: Chromium based) 07/06/23 Срд 18:22:55 3316879 26
>>3316862
> долго) но у меня есть безлимитный гигабит.
когда я баловался с массканом, весь мир на один порт сканировался 5-15 минут.
но это чисто connect и read 1024 байт баннера, скачивание всей страницы + всех её элементов (яваскрипты и css всякие (хотя хз, нужны ли они для архивирования)) займёт намного больше времени, но тоже терпимо.
имхо выкачать вообще весь интернет по 80 порту займёт максимум неделю, плюс ещё 443 порт и ради прикола 81, 8080, 8443
тут нужны пацаны из ИСКОПАЗИ, чтобы точнее соориентировали по времени.
Аноним (Linux: Chromium based) 07/06/23 Срд 18:55:00 3316893 27
>>3316860
> 1) сколько всего доменов в интернете?
нашёл базу 2022 года


...
...
...
.net.ua - 10113
.msk.ru - 10130
.men - 10148
.review - 10378
.bzh - 10439
.vision - 10472
.cards - 10475
.bz - 10481
.waw.pl - 10491
.ne.jp - 10518
.healthcare - 10592
.deals - 10624
.sa - 10656
.org.pl - 10722
.co.tz - 10723
.frl - 10752
.jetzt - 10810
.careers - 10896
.contact - 10897
.solar - 10917
.edu.au - 10922
.productions - 11043
.tax - 11050
.ly - 11161
.ooo - 11203
.web.id - 11259
.casino - 11265
.org.il - 11352
.vegas - 11468
.shopping - 11471
.estate - 11480
.co.rs - 11811
.moe - 11881
.edu.vn - 11944
.fashion - 11980
.skin - 11980
.kiwi - 12289
.clinic - 12365
.tours - 12511
.uy - 12525
.com.bd - 12616
.ren - 12657
.style - 12683
.day - 12832
.hair - 12876
.rentals - 12885
.clothing - 12916
.partners - 13015
.gold - 13040
.gov.cn - 13068
.management - 13075
.fitness - 13104
.jobs - 13143
.mn - 13213
.pet - 13327
.eus - 13392
.realty - 13417
.scot - 13475
.science - 13569
.direct - 13639
.net.in - 13640
.blue - 13650
.autos - 13754
.ar - 13784
.stream - 13796
.pp.ua - 13904
.com.ec - 13905
.golf - 13937
.mk - 13987
.al - 14003
.mom - 14015
.vc - 14074
.reviews - 14120
.boutique - 14232
.net.nz - 14279
.yoga - 14371
.wales - 14391
.im - 14566
.ind.br - 14694
.realestate - 14880
.gg - 15065
.beer - 15077
.net.pl - 15166
.ng - 15386
.com.py - 15450
.com.de - 15497
.wedding - 15543
.properties - 15552
.com.pt - 15558
.institute - 15585
.miami - 15684
.sale - 15792
.com.ru - 15850
.wien - 15983
.re - 16067
.band - 16086
.codes - 16097
.dog - 16294
.bike - 16306
.casa - 16407
.ba - 16566
.org.za - 16588
.gay - 17428
.photo - 17490
.legal - 17529
.directory - 17584
.wine - 17584
.guide - 17662
.press - 17663
.az - 17695
.xin - 17762
.md - 17848
.bid - 18025
.nrw - 18053
.help - 18089
.trade - 18091
.ua - 18205
.party - 18427
.show - 18564
.cash - 18789
.exchange - 18937
.swiss - 18960
.org.ua - 19111
.immo - 19166
.money - 19276
.am - 19299
.hamburg - 19328
.xn--io0a7i - 19425
.energy - 19600
.red - 19619
.to - 19774
.uno - 19858
.koeln - 20105
.tools - 20225
.law - 20328
.ltd.ua - 20337
.org.in - 20390
.org.nz - 20436
.paris - 20460
.chat - 20885
.ventures - 20933
.gallery - 20998
.xn--p1acf - 21343
.amsterdam - 21377
.cafe - 21407
.cm - 21816
.school - 22319
.fund - 22350
.pub - 22399
.photos - 22462
.travel - 22606
.training - 22715
.community - 22830
.pics - 22999
.software - 23145
.in.ua - 23196
.foundation - 23789
.market - 24245
.xn--czru2d - 24316
.tips - 24363
.video - 24363
.bio - 24502
.coach - 24643
.ge - 24727
.coffee - 24787
.cam - 24793
.house - 24969
.land - 25018
.tn - 25110
.run - 25513
.fm - 25526
.xn--3ds443g - 25734
.cool - 25824
.gmbh - 25855
.li - 26162
.xn--czr694b - 26379
.adv.br - 26489
.ru.com - 26634
.farm - 26747
.com.pe - 27019
.international - 27352
.capital - 27502
.us.com - 27827
.beauty - 27912
.co.at - 27930
.com.uy - 28062
.sch.id - 28206
.xn--55qx5d - 28226
.marketing - 28368
.best - 28844
.or.kr - 29023
.events - 29450
.spb.ru - 29557
.social - 29573
.com.pk - 29832
.church - 30015
.plus - 30076
.realtor - 30678
.la - 30708
.hk - 30730
.business - 31074
.education - 31312
.bayern - 31351
.works - 31420
.kiev.ua - 31616
.com.ph - 31964
.support - 31979
.ninja - 32303
.bond - 32380
.health - 32528
.city - 32676
.co.th - 32729
.expert - 32796
.wtf - 32825
.host - 32964
.uz - 33009
.za.net - 33507
.family - 34137
.technology - 34355
.care - 34730
.homes - 34768
.llc - 34846
.lk - 34894
.or.jp - 34981
.pe - 35140
.consulting - 35201
.com.np - 35460
.org.br - 35549
.earth - 35637
.cc.ua - 35832
.london - 35915
.wiki - 35989
.bet - 36044
.my.id - 36369
.systems - 37107
.com.ng - 39818
.com.es - 40160
.co.zw - 40569
.center - 41282
.photography - 42419
.zone - 42469
.pk - 42750
.team - 43196
.ink - 44348
.games - 45091
.tel - 45552
.fit - 45640
.ai - 45726
.co.ke - 46021
.rest - 46319
.xn--ses554g - 46780
.com.hk - 47391
.finance - 47525
.me.uk - 47703
.love - 47839
.net.br - 47881
.berlin - 48286
.lol - 48391
.wang - 48865
.fyi - 48867
.ph - 49367
.is - 50871
.uk.com - 51139
.academy - 51996
.global - 54196
.org.au - 54543
.pw - 55066
.bg - 55725
.guru - 56212
.sg - 56338
.page - 57383
.cn.com - 58887
.sbs - 60736
.ma - 61352
.ovh - 62487
.nyc - 62853
.services - 62925
.hk.com - 63184
.my - 64334
.co.id - 65353
.com.sg - 68609
.tw - 69003
.news - 69467
.network - 71059
.media - 71740
.lu - 72383
.ws - 73932
.win - 75109
.rs - 75462
.rocks - 76226
.company - 77223
.hr - 77996
.kred - 80141
.inf.ua - 81381
.nz - 85576
.lv - 85607
.quest - 85993
.org.cn - 86786
.com.vn - 91107
.solutions - 91279
.today - 91875
.agency - 92058
.id - 93389
.by - 94137
.kz - 94645
.su - 99374
.monster - 99550
.com.my - 99658
.studio - 101315
.com.co - 101404
.group - 103006
.si - 105330
.cat - 109930
.name - 110328
.email - 110901
.ae - 111965
.design - 116423
.ltd - 118951
.cfd - 123249
.digital - 124233
.net.cn - 131656
.bar - 139832
.lt - 139942
.net.au - 140809
.africa - 144391
.ee - 151592
.eu.org - 152833
.kr - 156233
.com.tw - 164755
.world - 166532
.tokyo - 174428
.one - 177459
.vn - 180193
.co.il - 187380
.link - 190640
.blog - 192174
.asia - 199063
.com.pl - 200225
.ie - 207497
.mx - 211309
.art - 212690
.work - 230687
.pt - 235808
.click - 237438
.cloud - 238435
.nu - 239361
.website - 240315
.co.in - 257749
.com.tr - 259850
.now.sh - 260086
.life - 276453
.com.ua - 278180
.mobi - 283816
.pro - 303935
.org.uk - 303943
.tv - 305396
.com.ar - 328890
.dev - 329046
.fun - 333063
.gr - 338676
.com.mx - 346278
.co.kr - 348675
.co.nz - 365315
.fi - 366723
.co.jp - 368430
.space - 370254
.cc - 380401
.cl - 401932
.tech - 406215
.ro - 412954
.io - 432735
.sk - 447628
.uk - 505206
.no - 560565
.hu - 573494
.buzz - 574459
.me - 588160
.ir - 597311
.app - 622585
.live - 633951
.vip - 634190
.xn--p1ai - 634854
.club - 660123
.cyou - 778853
.jp - 835637
.store - 850162
.co.za - 916310
.cz - 947983
.icu - 991013
.dk - 1036088
.at - 1047859
.site - 1065040
.com.cn - 1101790
.in - 1125272
.be - 1177099
.shop - 1200264
.es - 1245846
.biz - 1365735
.pl - 1373594
.se - 1428930
.co - 1472092
.tk - 1667831
.top - 1840704
.us - 1892992
.online - 1972363
.ca - 1977357
.com.au - 1979664
.it - 2235746
.gq - 2243329
.ch - 2410074
.eu - 2500571
.com.br - 2518138
.ml - 2579590
.fr - 2616353
.cf - 2737993
.ga - 3050915
.info - 3659291
.nl - 3724829
.xyz - 4120476
.cn - 4342564
.ru - 4814375
.co.uk - 5635601
.org - 10642621
.de - 12112593
.net - 13044441
.com - 159256705


сумма всех зон = 308901854
Аноним (Microsoft Windows 10: Chromium based) 07/06/23 Срд 19:00:17 3316896 28
>>3316893
дохренищща. Имена доменов есть?
Кроме этого ещё и регистрации\обновления IP\освобождения надо отслеживать.
Аноним (Linux: Chromium based) 07/06/23 Срд 20:17:22 3316917 29
>>3316896
конечно есть.
зачем отслеживать изменения IP, если можно тупо заново резолвить все домены при следующем обходе?
Аноним (Microsoft Windows 10: Chromium based) 07/06/23 Срд 20:58:16 3316936 30
>>3316917
да, не существенно. Даже можно пренебречь регистрирующимися, как содержащими инфу сомнительной ценности.
Аноним (Google Android: Mobile Safari) 07/06/23 Срд 21:10:51 3316943 31
>>3316862
> )
Пиздец. Быдло. Пиздец.
Аноним (Linux: Chromium based) 07/06/23 Срд 21:32:22 3316949 32
>>3316943
сударь, проследуйте в /rf/))))
Аноним (Google Android: Mobile Safari) 08/06/23 Чтв 08:49:37 3317104 33
>>3316949
Дерьмо, не кривляйся.
Аноним (Linux: Chromium based) 08/06/23 Чтв 09:41:26 3317117 34
>>3317104
дерьмо это твоя мамка
Аноним (Linux: Chromium based) 08/06/23 Чтв 09:50:40 3317120 35
обоссав шизика, узнавшего про двач три года назад на лурочке и теперь делающего вид, что он ниибацца олдфаг и негодующего, что на его дваче кто-то ставит скобочки, вернёмся к конструктивному обсуждению.

основная проблема gigablast >>3313558 (OP) и прочих публичных кравлеров >>3315159 в том, что они тупо собирают HTML код со страницы, и не выполняют Javascript код, а вот гугл и прочие яндексы исполняют яваскрипт и получают больше информации, чем простой дамп HTML.
к сожалению, в современном уебанском вебе большинство сайтов работают исключительно на яваскрипте, и если какую-нибудь парашу типа инстаграма мы можем просто занести в блэклист кравлера - там всё равно ничего ценного нет - то форумы на движке Discourse и сайты на движке Wix как-то парсить надо.
то есть простой модификацией какого-нибудь masscan не обойтись, в кравлер придётся вкручивать v8 или какой-нибудь ducktape для выполнения яваскрипта.
08/06/23 Чтв 14:11:35 3317283 36
>>3317120
Почему мелкобуквенные залетухи из /б/ так любят "обоссывать"?
Аноним (Linux: Chromium based) 08/06/23 Чтв 15:42:39 3317315 37
>>3317283
потому что ваше место у параши. в очередной раз напоминаю, что в интернетах писать с маленькой буквы было принято задолго до того, как тебе купили первый компьютер.
08/06/23 Чтв 17:04:19 3317358 38
>>3317315
Залётное срущее дерьмо, вернись в /б/. Тебе здесь не рады.
Аноним (Linux: Chromium based) 08/06/23 Чтв 17:34:00 3317368 39
superior.png 356Кб, 460x590
460x590
>>3317358
> Залётное срущее дерьмо, вернись в /б/. Тебе здесь не рады.
Аноним (Linux: Chromium based) 10/06/23 Суб 10:12:04 3318070 40
бамп
Аноним (Google Android: Mobile Safari) 11/06/23 Вск 00:55:18 3318501 41
Аноним (Linux: Chromium based) 12/06/23 Пнд 11:36:42 3318983 42
бамп
Аноним (Linux: Chromium based) 12/06/23 Пнд 12:26:25 3319001 43
Аноним (Linux: Chromium based) 12/06/23 Пнд 13:01:45 3319009 44
>>3319001
> прокси для гугла

ты тупой?
Аноним (Google Android: Mobile Safari) 12/06/23 Пнд 23:49:06 3319354 45
Кто я? Я ебаное дно
биджиджи
Аноним (Linux: Chromium based) 14/06/23 Срд 11:11:25 3319788 46
бамп
Аноним (Microsoft Windows 10: Chromium based) 14/06/23 Срд 13:27:48 3319809 47
>>3319788
вообще тема интересная, я бы поэкспериментировал, но в до зимы свободного времени нет
Аноним (Linux: Chromium based) 16/06/23 Птн 08:50:40 3320398 48
бамп
Аноним (Microsoft Windows 10: Firefox based) 16/06/23 Птн 18:41:00 3320542 49
Аноним (Linux: Chromium based) 16/06/23 Птн 18:51:28 3320545 50
>>3320542
о, похоже, что это именно то, что надо, спасибо!
Аноним (Microsoft Windows 10: Firefox based) 16/06/23 Птн 19:00:38 3320550 51
>>3320545
Я вообще удивлен, как можно не знать платину этой отрасли, биджиджи
Аноним (Linux: Chromium based) 16/06/23 Птн 19:21:41 3320554 52
>>3320550
> как можно не знать платину
а сам-то знал её до 16/06/23 Птн 18:41:00?
бґґґ
Аноним (Linux: Firefox based) 17/06/23 Суб 00:02:11 3320672 53
Аноним (Linux: Chromium based) 17/06/23 Суб 00:18:10 3320691 54
>>3320672
класс, спасибо!

> Marginalia, the indie search engine that surfaced non-commercial content first, is currently on the front page of HN and handling the traffic load with one $5k commodity server with 128GB RAM/24 cores at 85% utilization with a single Java app

> The search engine now indexes 106,857,244 documents!


вообще шикарно. это намного меньшие затраты, чем я предполагал.
Аноним (Linux: Chromium based) 17/06/23 Суб 00:19:29 3320696 55
>>3320672
>>3320691
> mysql
фигасе. я ожидал какой-нибудь еластик
Аноним (Linux: Firefox based) 17/06/23 Суб 04:31:16 3320728 56
Аноним (Linux: Chromium based) 17/06/23 Суб 11:04:27 3320774 57
>>3320728
о, тут вообще гуй на пхп, восхитительно, спасибо.
не зря две недели бампал.
Аноним (Linux: Chromium based) 17/06/23 Суб 11:11:01 3320778 58
>>3320728
хотя нет, это не совсем то.
это поисковый движок типа еластик сёрч, а не кравлер. этот движок использует данные, собранные проектом https://commoncrawl.org/

с другой стороны, благодаря alexandria я узнал об этом commoncrawl, так что всё равно спасибо.
Аноним (Linux: Chromium based) 17/06/23 Суб 11:17:12 3320780 59
>>3320778
> commoncrawl

> about 250 TiB of uncompressed content

pizdos
Аноним (Linux: Chromium based) 17/06/23 Суб 11:21:06 3320781 60
а также неизвестно, фильтруется ли что-то в этом commoncrawl или нет. может, там тоже неудобные результаты были вырезаны жидомасонами.

я считаю, что для того, чтобы иметь unbiased данные, нужно сделать следующее:

1. натравить павука на весь диапазон IPv4 0.0.0.0/0 (нахуй IPv6)
2. натравить павука на все известные домены >>3316893
3. совместить собранные данные с публичными данными от commoncrawl.

дискасс
Аноним (Microsoft Windows 10: Chromium based) 17/06/23 Суб 12:41:46 3320802 61
>>3320781
травить по IP = уменьшать результаты.
У хостингов на одном IP висит по сотне доменов и простой запрос по IP выдаст дефолтную пустую страницу (или максимум первый домен из сотни).
Аноним (Linux: Chromium based) 17/06/23 Суб 13:33:50 3320825 62
>>3320802
дальше первого пункта прочитал?
Аноним (Linux: Chromium based) 25/06/23 Вск 12:13:16 3323630 63
бiмп
Аноним (Microsoft Windows 10: Chromium based) 26/06/23 Пнд 01:17:47 3323840 64
>>3316745
> Дословные цитаты из "Библии" поисковики уже не всегда находят.
Дословные цитаты из Библии "поисковики" уже не всегда находят.
Так вернее.
Аноним (Google Android: Mobile Safari) 26/06/23 Пнд 09:42:57 3323874 65
>>3316745
Бля это было бы охуенно если бы верунов оставили без их сказочек. Жаль, такого не произойдет.
Аноним (Google Android: Mobile Safari) 26/06/23 Пнд 10:34:23 3323881 66
>>3313558 (OP)
Так почему не пользоваться непопулярным поисковиком, где нет такого говна как в Гугл и Яндекс?

Есть же какие-то нишевые, должны быть

Это проще, чем свой собирать
Аноним (Linux: Chromium based) 26/06/23 Пнд 17:40:45 3323997 67
>>3323881
потому что завтра к этому непопулярному поисковику придут и попросят убрать из выдачи неприятные результаты, а свой паук со своей базой - это свой паук и своя база.
Аноним (Microsoft Windows 7: Chromium based) 26/06/23 Пнд 22:42:27 3324060 68
БАМПУЮ В ТЕМАТИКЕ
ХОБА!
Аноним (Microsoft Windows XP: Firefox based) 26/06/23 Пнд 23:55:31 3324064 69
>>3313558 (OP)
Как ты будешь размещать сервера под кроватью, если там всё место жиды заняли?
Аноним (Google Android: Mobile Safari) 27/06/23 Втр 00:29:40 3324068 70
>>3313558 (OP)
А есть ли смысл? Чат гопота/альпака и тд уже заархивировала ценные знания. Ну а бд яндекс еды и так не в белом интернете.
Аноним (Linux: Chromium based) 27/06/23 Втр 13:42:17 3324143 71
>>3324064
жиды под кроватью, а сервера в датацентре.
Аноним (Google Android: Mobile Safari) 29/06/23 Чтв 13:22:07 3324767 72
Хуй с ним с поисковиками. С порносайтов пропала порнуха, которая там всегда была. Все "вот те" заебавшие ролики по соответствующим запросам. Просто блядь нету, как корова языком слизала. Не говно, не процессоры, не расчленёнка, обычная. Заходя с VPN из разных стран часть этого старья иногда появляется обратно, но не всё и с разных VPN пояаляется разное. Нахуя так делать? Подписку я всё равно не куплю при наличии миллиона аналогичных сайтов в поиске.
Аноним (Linux: Chromium based) 29/06/23 Чтв 14:00:08 3324779 73
>>3324767
> с разных VPN пояаляется разное
лол, я совсем забыл - гугол же тоже показывает разные результаты для разных стран.
и что, сука, характерно, он показывает разные результаты даже для запроса site:тут-какой-нибудь-сайт.ком в зависимости от того, из какой страны гуглишь. пиздец, короче.
Аноним (Microsoft Windows 10: Chromium based) 30/06/23 Птн 14:23:19 3325106 74
image.png 10Кб, 418x175
418x175
>>3313558 (OP)
Можно подчистить результаты гугла, плагин uBlacklist
Аноним (Linux: Chromium based) 30/06/23 Птн 18:29:25 3325164 75
>>3325106
это, конечно, клёвый аддон, но только он не имеет никакого отношения к тематике треда.
Аноним (Microsoft Windows 10: Chromium based) 02/07/23 Вск 13:16:47 3325686 76
>>3316745
>Старожили знают что такое нормальный поиск в интернете и нормальные сайты с нормальными статьями, а не сгенерированная дрянь.
это ты щас про сайты типа wikiHOW ? или HOW-To-DO?
Аноним (Linux: Firefox based) 03/07/23 Пнд 04:44:26 3325932 77
>>3324064
>>3324143
Как раздобыть свой датацентр? Отнять у пыни? Не варик, он не даст. Варианты?
Аноним (Microsoft Windows 10: Firefox based) 03/07/23 Пнд 17:36:35 3326074 78
Аноним (Google Android: Mobile Safari) 22/07/23 Суб 01:36:02 3333599 79
>>3314811
>у меня есть пара свободных серверов с безлимитным трафиком и несколькими терабайтами места.
Нужно безлимитное количество ip с которых будешь сканить а не трафик.
>а это уже слишком дохуя будет стоить.
>имхо весь текст в интернете весит не больше сотни гигабайт
Вот это ты дурачок.
Один либрусек весит 300Гб и это в пожатом виде
https://rutracker.org/forum/viewtopic.php?t=5384939
А текст в интернете весит тысячи ТБ.
Аноним (Google Android: Mobile Safari) 22/07/23 Суб 01:51:04 3333604 80
>>3316860
Тебя забанят везде на второй день или даже раньше, потом прилетит абуз твоему провайдеру/хостингу и тебя отключат. На этом гг.

Хочешь обойти цензуру поисковиков присоединяйся к тем кто ведет реестры удаленного из гугла говна.

Выдача 20 страниц это просто оптимизация, ты же не думаешь что ради одного дебила поисковик по слову москва выдаст все свои миллионы страниц?
Аноним (Google Android: Mobile Safari) 22/07/23 Суб 06:59:09 3333659 81
>>3333599
Чел, а зачем хранить тексты, если сеть не собирается сегментироваться и удалять свободный доступ? Тогда достаточно просто создать дерево графов или облако тегов, раздать им цифробуквы и определения, а дальше просто весь текст пропускать через семантико-семиологию нейронетов, они циферки/цвет/звук выставят и определят/зададут направление/вектор поиска при запросе. А дальше будет просто запрос - телепорт к нужному хосту, вычитка, анализ, результат хранимой инфы. Пусть гугл и люди и дальше хранят архивы, фактически, у тебя будет каталог, реестр анализа, и ты будешь прыгать по данным, как блоха по слону. Как рисунок Матрицы на мониторе, с бегающими иероглифами оформить, и весьма символично будет, лол.
Аноним (Microsoft Windows 10: Firefox based) 22/07/23 Суб 14:00:17 3333796 82
>>3333599
достаточно несколько проксей в нескольких странах, большинству хостеров похуй, что с них сканят, особенно если вставишь в юзерагент ссылку на страницу для "отписки" от скана.

> А текст в интернете весит тысячи ТБ.
commoncrawl - 250 TB
но всё это мне не нужно, имхо нескольких десятков терабайт хватит с головой.

>>3333604
домашним провайдерам на сканы глубоко похуй, хостерам иногда бывает не похуй, но если сделаешь форму отписки - станет похуй.
Аноним (Google Android: Mobile Safari) 11/08/23 Птн 11:24:26 3342469 83
>>3333599
А если упорться децентрализацией?
Например, на компе добровольца запускается краулер, который сканит свой сегмент сети. Краулеры общаются между собой через тот же Yggdrassil.
Работать может примерно так: реализовать на уровне приложения и краулер, и интерфейс поисковой системы, плюс приложение будет иметь библиотеку всех ipv6 адресов, на которых оно хостится. Таким образом, пользователь, чтобы получить доступ к поисковику, также хостит у себя и краулер. Задавая вопрос поисковой системе, приложение опрашивает себя и остальных, получант ответ, формирует форму предоставления для пользователя.
Основных затыков вижу два:
1. Сегментация Интернета между краулерами, чтобы ответ из сети не имел дублирующихся значений (но несколько краулеров могут по общему алгоритму шерстить один и тот же сегмент для отказоустойчивости)
2. "Слепота" поисковой системы на ранних этапах развития.
Аноним (Microsoft Windows 10: Firefox based) 12/08/23 Суб 15:01:01 3342777 84
>>3342469
> но несколько краулеров могут по общему алгоритму шерстить один и тот же сегмент для отказоустойчивости
не "могут", а должны шерстить один и тот же сегмент, потому что огромное количество сайтов и CDN используют геоблокировки и я в том числе, ибо нахуй мне паразитный трафик из какой-нибудь африки
Аноним (Microsoft Windows 10: Chromium based) 12/08/23 Суб 17:16:55 3342844 85
>>3320672
>>3320728
Я правильно понял. что нужно иметь свой сервер чтобы найти информацию?
Аноним (Microsoft Windows 10: Firefox based) 13/08/23 Вск 11:37:12 3343108 86
>>3342844
зависит от каждого конкретного движка. маргиналия >>3320672 например даёт искать по своей базе.
Аноним (Microsoft Windows 10: Firefox based) 15/08/23 Втр 11:28:07 3343861 87
хозяйке на заметку: https://github.com/webrecorder/browsertrix-crawler

> Browsertrix Crawler is a simplified (Chrome) browser-based high-fidelity crawling system, designed to run a complex, customizable browser-based crawl in a single Docker container.
Аноним (Google Android: Mobile Safari) 16/08/23 Срд 17:28:47 3344464 88
>>3342469
>А если упорться децентрализацией?
>Например, на компе добровольца запускается краулер, который сканит свой сегмент сети.
Это единственное потенциально рабочее решение. Если людей наберется тысячи то еще и работать лучше гугла будет.

Начинайте разрабатывать.
Аноним (Google Android: Mobile Safari) 16/08/23 Срд 23:43:15 3344624 89
>>3313558 (OP)
Yacy же есть. Он как раз на 100% попадает под тебя
Аноним (Microsoft Windows 10: New Opera) 17/08/23 Чтв 02:13:25 3344654 90
test
Аноним (Google Android: Mobile Safari) 17/08/23 Чтв 02:59:44 3344657 91
Сап. Есть ли какая OSINT вундервафля для сталкинга? И на себя в прошлом посмотреть, и за ЕОТ пошпионить?
Аноним (Google Android: Mobile Safari) 17/08/23 Чтв 10:01:51 3344732 92
>>3344464
Вообще сейчас хочу сделать децентрализованную борду в игдрассиле, основная задумка -- локальные копии тредов по умолчанию сохраняются на устройствах тех, кто в них заходит, и могут быть загружены у них же новыми посетителями вместе с ipv6 адресами всех держателей треда, по которым будут пробегаться, обновляя тред. В планах отказаться от разделения на доски, но ввести хештеговую систему тредов с возможностью включения и исключения тегов.
Проблема только в том, что последний раз что-то кодил в универе, что было 4 года назад. Сейчас вот думаю, как синхронизировать бд, хранящиеся у всех отдельно.
Кстати, вопрос знатокам: PWA может фоном гонять данные по сети, и на каких осях?
Аноним (Google Android: Mobile Safari) 17/08/23 Чтв 10:03:07 3344733 93
>>3344732
Ну и, если получится, может и до краулера доберусь, да.
>>3342469 - кун
Аноним (Microsoft Windows 8: Firefox based) 17/08/23 Чтв 10:15:58 3344735 94
>>3344732
>Кстати, вопрос знатокам: PWA может фоном гонять данные по сети, и на каких осях?
В шинде PWA на хромиум могут обращаться с API фоновой выборки, периодической и постоянной фоновой синхрой. Как ты понимаешь, должны быть запущены службы поддержки фоновой работы приложений формата UWP\PWA.
Лучше сделай меш-чат, вместо борды. Туда (в бордель) никто не придет, да и не оценят, а чятик - постоянное общение и новые мысли.
Аноним (Linux: Firefox based) 09/09/23 Суб 00:56:58 3354891 95
Аноним (Linux: Firefox based) 09/09/23 Суб 01:00:38 3354893 96
Аноним (Microsoft Windows 10: Firefox based) 12/09/23 Втр 11:40:50 3356424 97
trol.jpg 67Кб, 477x397
477x397
Аноним (Apple Mac: Chromium based) 14/09/23 Чтв 01:38:42 3357131 98
Подписался на годнотищу.
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов