使用WGET镜像到静态站点的网站 -- 6 领域 和 blocks 领域 和 navigation 领域 drupal 相关 的问题

Use wget to mirror a site to a static site


4
vote

问题

中文

我正在尝试使用以下命令镜像需要存档为静态站点的Drupal 6站点。不幸的是,我只能找到一个静态生成器for drupal 7 ,而不是6. i虽然似乎是似乎

的问题
  1. 通过按照不同的角色登录,WGET命令将按下完全不同的目录结构。这并不意外,但在某些情况下,作为管理员,存在很多内容丢失,其中包含具有较少权限的帐户。
  2. 在主页上有链接在单独的块中,目录和页面不会通过使用任何角色登录到文件目录结构中,包括管理员。

到目前为止,我成功地镜像了网站(具有上述限制),但我不确定命令是否实际上是镜像整个站点,因为我需要它做。这是我正在使用的代码 wget

  wget --mirror -w 2 -p --convert-links --load-cookies cookies.txt -e robots=off https://url.org/user   

在其中创建cookie文件:

  wget --save-cookies cookies.txt --post-data 'name=MY_USERNAME&pass=MY_PASSWORD&form_build_id=FORM_ID&form_id=user_login&op=Log+in' https://url.org/user   

我是非常新的drupal,所以我不确定角色和权限如何,或内容的结构可能影响 wget mirror 操作。任何建议都会受到赞赏!

英文原文

I'm trying to use the following command to mirror a Drupal 6 site which needs to be archived as a static site. Unfortunately, I've only been able to find a static generator for Drupal 7, not 6. I'm having issues because it seems that

  1. By logging in as different roles, the wget command will pull down completely different directory structures. This is not unanticipated, but in some cases as an administrator there is quite a lot of content missing which is pulled down with accounts that have lesser permissions.
  2. There are links on the main page in separate blocks whose directory and pages do not get pulled down in the file directory structure by logging in with any role, including administrator.

So far I've successfully been able to mirror the site (with the above limitations), but I'm not sure if the command is actually mirroring the entire site as I need it to do. Here is the code I am using for wget:

wget --mirror -w 2 -p --convert-links --load-cookies cookies.txt -e robots=off https://url.org/user 

where the cookies file is created like this:

wget --save-cookies cookies.txt --post-data 'name=MY_USERNAME&pass=MY_PASSWORD&form_build_id=FORM_ID&form_id=user_login&op=Log+in' https://url.org/user 

I am very new to Drupal, so am not sure how roles and permissions, or the structure of the content might affect a wget mirror operation. Any suggestions would be appreciated!

        
         
         

回答列表

1
 
vote
vote
最佳答案
 

似乎这个问题与"注销" 块在主站点的标题中有关。因此,当WGET去除掉头时,它实际上会转到注销链接,因此剩下的文件将显示登录屏幕或者不会下载登录屏幕。通过禁用注销块或添加到我的wget命令,似乎已经修复了问题,现在正在下载完整目录结构。我使用的命令是:

  wget --mirror -w 2 -p --convert-links --load-cookies cookies.txt -e robots=off --reject logout https://url.org/user   
 

It appears that the issue had to do with the fact that a "Logout" block was in the header of the main site. As a result, when wget went to pull things down, it would actually go to the logout link, and thus the rest of the files would either display a login screen or wouldn't be downloaded. By disabling the logout block OR adding --reject logout to my wget command, it seems to have fixed the issue and now the full directory structure is being downloaded. The command I ended up using was:

wget --mirror -w 2 -p --convert-links --load-cookies cookies.txt -e robots=off --reject logout https://url.org/user 
 
 
0
 
vote
  wget -mnH -k --html-extension https://example.com   

我没有设置任何cookie,但这是我通常运行的东西镜像一个网站,它运作良好。如果您不希望HTML扩展

,则可以将最后一部分置
 
wget -mnH -k --html-extension https://example.com 

I'm not setting any cookies, but this is what I usually run to mirror a website and it works well. You can sub the last portion if you don't want html extensions

 
 
   
   

相关问题

2  如何制作粘性物品首先在文章清单中显示出来?  ( How to make sticky articles show up first in a list of articles ) 
我有一个显示文章列表的视图,按日期排序。我尝试在发布选项中启用粘性文章选项。这使我跳到了列表顶部的文章,但是我添加了一个新的文章将粘性物品推到第二名。 我想要一个粘性物品(固定)在列表中首先是我添加新文章。 如何实现这一目标? ...

2  隐藏搜索栏/登录菜单旁边的“语言菜单”  ( Hide language menu next to search bar login menu ) 
我继承了当前正在运行的ropal 6.x版本的相当可怕的寻找网站。我现在正在尝试简化/删除/禁用网站上可以的不必要的事情。 http://sejong.ff.cuni.cz/ 其中一个功能是搜索栏/登录菜单旁边的多语言菜单。我访问了多语言设置,但我一直无法找到摆脱该菜单的方法。 如何实现这一点? (我是...

1  如何获取所有数据库,可用于'db_set_active'  ( How to get all database which can be used in db set active ) 
是否有任何方法可以使用疏水列出所有可能的数据库连接? 我正在调试一个应用程序,其中DB连接没有用settings.php写入,我无法找到所有可能的连接。在代码中,我可以看到 $database = db_set_active('test'); 是否有任何方法可以列出像测试,test1,test2的DB连接名...

0  像钩子这样的hook_node_pre_submit()吗?  ( Is there any hook node pre submit like hook ) 
我有一个drupal 6站点,我正在使用webform模块。有在JavaScript中编写的业务验证,但用户可以通过禁用JavaScript来绕过它们。 是否有任何 hook_node_pre_submit() 在drupal 6中的钩子类型,如果验证失败,则不允许用户提交表单? ...

4  如何在生命结束后获得有关可用安全更新的准确信息?  ( How to get accurate information about available security updates after end of li ) 
对于使用 更新 模块的Drupal 6站点,"可用更新" 报告不再显示有关可用安全更新的准确信息。 当然,这是因为在Drupal 6的终身日期之后,Drupal.org上的所有Drupal 6模块都标记为不受支持。 是否有任何其他方法仍然可以获得有关Drupal 6的可用安全更新的准确信息? ...

1  内容失踪  ( Content missing ) 
我继承了这款生产6.36网站(20左右),这些网站(20左右)严重定制。最近,它已经开始显示奇怪的行为 - 就像一些不适用于非管理员用户的JS。一个特别令人担忧的问题正在失去页面。在过去的几个月里,我们在这里丢失了一个页面,但上周它已经丢失了大约20个奇数页面(作为一个带帮助的乐队,我们一直在将这些页面重建了它们的W...

0  日期在'编辑'上消失  ( Dates disappear on edit ) 
我们仍然在Drupal 6,多年来一直工作,但我没有做任何更新。 我们在带有弹出框的"事件" 项目上有日期/时间框(见图)。 但自最近的时候,当你"编辑" 一个事件时,日期/次会去空白,但他们没有用。 我们根本没有什么可以改变设置! 这不仅令人讨厌,而且随着"首页" 被设置为时间顺序,如果日期是空白的,则事件消失...

0  如何清理会话表?  ( How do i clean up the sessions table ) 
我需要删除关于匿名用户从会话表登录的条目。 我读了报告的内容 https://techcommons.stanford.edu/topics/drupal/sessions-table-清理 上面的页面中的PHP设置可确保从Drupal处理的会话表中自动删除匿名用户登录条目?建议的设置是否对该数据库表有任何影响?...

1  如何删除“请求新密码”链接?  ( How do i remove the request new password link ) 
当我访问www.example.com/user时,有一个页面,显示登录/密码以及"请求新密码" 选项卡。 如何从用户页面中删除此"请求新密码" 选项卡? ...

1  我需要从数据库记录到syslog  ( I need to switch from database logging to syslog ) 
我正在运行一个drupal 6网站,我正在考虑遵循以下步骤的速度: 完全停止数据库日志记录 启用syslog 如何配置drupal以使用syslog? 如果我只启用syslog并禁用数据库日志怎么办?我必须进一步配置东西吗? ...

0  需要帮助优化一个站点的速度和响应时间[关闭]  ( Need help optimizing a site for speed and response time ) 
关闭。这个问题是基于意见的。它目前不接受答案。 想要改进这个问题?更新问题,以便通过编辑此帖的事实和引用来回答。 关闭 2年前。 ...

-1  如何安装memcache模块? [关闭]  ( How to install the memcache module ) 
关闭。这个问题需要更多聚焦。它目前不接受答案。 想要改进这个问题?更新问题,因此它仅拍摄了一个问题,只有编辑此帖。 关闭 4年前。 ...

0  SA-Core-2013-003 - 文件目录未完全受保护  ( Sa core 2013 003 files directorynot fully protected ) 
我正在使用 Pressflow 6.38,我正在尝试实现 SA-CORE-2013-003 - Drupal Core - 多种漏洞| drupal.org 在 /etc/httpd/conf.d/pressflow.conf 配置文件中,如下: <DirectoryMatch "^/(tmp|var/w...

2  我如何看待它是否改善了我的回复时间?  ( How do i see if its improving my response time ) 
我为drupal 6站点安装memcached。状态报告显示它已正确安装。 如何检查它是否按预期工作,加快我的网站? ...

1  管理/分配给管理员以外的用户的角色  ( Manage assign roles to users other than administrators ) 
我被要求创建一个模块,允许用户具有特定角色以将角色分配给其他用户w / no'管理用户'权限而不是管理员。不得允许用户编辑有关使用"管理用户" 权限/管理员的用户的信息。 我该怎么办?我必须为此创建自定义模块吗?是否有可能使用视图模块? ...

2  在尝试手动运行Cron时,内存大小耗尽  ( Memory size exhausted when trying to run cron manually ) 
在我的Drupal 6网站上,当我手动运行Cron时,以下错误消息显示: 致命错误:允许的内存大小为134217728字节耗尽(试图在第34行中排除在/dirname/includes/database.mysql-common.inc中的(尝试分配4181580字节) cron被设置为每晚自动运行,但是几天没...

-1  Drush 8.1.9+使用Drupal 6导致“由于不可恢复的错误而异常终止”,后跟网站主页源代码  ( Drush 8 1 9 with drupal 6 results in drush command terminated abnormally due t ) 
我的网站托管在Linux服务器上,安装了Apache 2.2,PHP 5.5,安装了MySQL 5.6。我使用Drush 8.1.8,我通过Composer安装了我安装的,它与我的D6,D7和D8站点正确合作。我可以通过使用DRUSH 8与MyDropWizard模块组合更新一些D6站点模块。 我最近试图将醉酒更新到...

0  表单提交未在大型表格上射击  ( Form submit is not firing on large form ) 
我有一个旧的d6网站。我创建了一个带有非常多字段的Hook_Form的表单(197行* 6列= 1182字段)。它运作良好,表格提交正常工作。 但是当我为表单添加一个新的第7列并且字段编号变为1379,表单提交未触发。 我没有看到任何错误或警告,PHP Memoty限制设置为256米,也是最大尺寸。但提交处理程序简...

0  如何更改蓝图主题的顶级图片?  ( How do i change the top picture for blueprint theme ) 
我只需要将网站的顶部图像更改为另一个图像。该网站正在使用Drupal 6和蓝图主题。我能够进入主题建设页面,是正确的地方开始吗? ...

0  将Drupal 6博客导出为CSV  ( Exporting drupal 6 blog as csv ) 
我使用Drupal 6为客户端,我想将博客条目导出为CSV以及标题和身体内容和图像。 我已安装视图数据导出模块然后去了 视图---&gt;添加和给出视图名称,如:博客,blog_entry,export_test 以及从视图类型我尝试了:节点,node_revisions 但它说:似乎您正在寻找的页面不存在。请确...




© 2021 it.wenda123.org All Rights Reserved. 问答之家 版权所有


Licensed under cc by-sa 3.0 with attribution required.